隨著工藝技術(shù)節(jié)點的微縮,SRAM的每百萬位失效率(FIT)也在隨之下降。但三重內(nèi)容可尋址存儲器(TCAM)的情況又怎樣?在90nm節(jié)點,TCAM的故障率與SRAM基本相當(dāng),但就過去的兩個節(jié)點而言,TCAM的故障率反有增加的趨向,所以我們必須對在65nm節(jié)點TCAM的故障率將超過SRAM的情況做出心理準(zhǔn)備。另外,因故障率是以每百萬位為計算給出的,所以,隨著存儲器容量的不斷增加,該問題將進(jìn)一步惡化。這種趨勢非常關(guān)鍵,因為TCAM是網(wǎng)絡(luò)搜索引擎中使用的一種底層技術(shù),負(fù)責(zé)對網(wǎng)絡(luò)信息包進(jìn)行分類,并對數(shù)據(jù)包進(jìn)行轉(zhuǎn)發(fā)。
對此,軟錯誤評估工具、軟錯誤專業(yè)服務(wù)和輻射測試服務(wù)提供商iRoCTechnologies公司總裁OlivierLauzeral指出:“SRAM和TCAM中發(fā)生的絕大多數(shù)錯誤都是由單粒子反轉(zhuǎn)(SEU)或單點錯誤(SBE)引起的。因此,為確保最高水準(zhǔn)的網(wǎng)絡(luò)QoS,并為了符合服務(wù)等級協(xié)議,TCAM必須采用最先進(jìn)的糾錯碼(ECC)技術(shù)。那么,這些技術(shù)具體又是怎樣的呢?
為將軟錯誤存續(xù)時間降至最短,需要在系統(tǒng)中的不同層級配置糾錯碼(ECC)。例如,在高可靠性系統(tǒng)中,為確保正確的系統(tǒng)功能,要從自應(yīng)用層起的功能鏈中各個環(huán)節(jié)都施加ECC。但是,在發(fā)現(xiàn)錯誤(或更準(zhǔn)確地說是其造成的后果)的這個點上,將對QoS產(chǎn)生顯著影響。對系統(tǒng)盒體級和網(wǎng)絡(luò)系統(tǒng)級對錯誤進(jìn)行持續(xù)監(jiān)視并予以消除當(dāng)然能夠很好地避免許多災(zāi)難性的錯誤。但是,如果“遲”至應(yīng)用級,則有可能無法對錯誤進(jìn)行糾錯。所以,在芯片級進(jìn)行偵錯的方法具有最高可靠性。
問題在于:是將ECC集成進(jìn)TCAM,還是在外部應(yīng)用ECC?畢竟,外部ECC方法已實施多年,業(yè)內(nèi)經(jīng)過時間洗禮,是一種被證明行之有效的存儲器糾錯方法。但是,外部ECC要求系統(tǒng)設(shè)計師在開發(fā)所需的電路時花費更多設(shè)計時間、付出更大努力和開銷,且所用的器件成本和PCB面積也更高更大。它還需要系統(tǒng)處理器發(fā)布命令和進(jìn)行控制,但這樣也會增加系統(tǒng)延遲,進(jìn)而可能對系統(tǒng)性能帶來負(fù)面影響。隨著TCAM變得越來越大,這些不利因素(特別是性能方面的影響)將會更嚴(yán)重。
將ECC集成進(jìn)TCAM將免去所有這些問題。集成的ECC電路是專門為TCAM優(yōu)化設(shè)計的,從而使完成相應(yīng)功能所需增加的絕對門數(shù)和成本都最少。另外,ECC的工作會被器件延遲所“掩蓋”,而在整個工作條件下,器件的延遲參數(shù)是具體及可預(yù)測的。另外,該設(shè)計和驗證工作是由半導(dǎo)體廠商完成的;所以,系統(tǒng)設(shè)計師不必再為此勞心費力。
正因為這些原因,IDT將ECC集成進(jìn)其搜索加速器。ECC可在內(nèi)核內(nèi)糾正單一錯誤并偵測出雙重錯誤,它還檢測接口的總線奇偶性。非常重要的是,它還檢測最近一直沒訪問過的內(nèi)容以偵測“沉默”的錯誤。所謂“沉默錯誤”,就是那些直到數(shù)據(jù)被訪問前一直保留并可能導(dǎo)致災(zāi)難性后果(例如,一個轉(zhuǎn)錯了的911緊急呼叫)的錯誤。另外,集成ECC工作在后臺模式,從而不會對搜索性能產(chǎn)生影響。
隨著工藝技術(shù)節(jié)點的不斷精進(jìn),以及TCAM變得越來越大,加之我們想方設(shè)法要從中獲取更多性能方面的好處,對設(shè)備供應(yīng)商來說,用于軟錯誤糾正的集成ECC是唯一具成本效益的方案。糾正軟錯誤不必等到“事后諸葛亮”。