通過芯片級偵錯有效減少存儲器軟錯誤

時間：2007-08-27 09:38:34

關(guān)鍵字：存儲器芯片級 BSP ECC

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 到底為什么我們要討論軟錯誤呢？誠然，這一問題在幾十年前就提出來了，但問題是，相關(guān)的措施到位嗎？當(dāng)然，就某種程度而言，是到位的。諸如降低串?dāng)_等設(shè)計層面的措施，以及不使用硼磷硅玻璃、采用低α封裝和無鉛

到底為什么我們要討論軟錯誤呢？誠然，這一問題在幾十年前就提出來了，但問題是，相關(guān)的措施到位嗎？當(dāng)然，就某種程度而言，是到位的。諸如降低串?dāng)_等設(shè)計層面的措施，以及不使用硼磷硅玻璃、采用低α封裝和無鉛化等制造層面的手段，所有這些都顯著降低了由軟錯誤導(dǎo)致的出錯幾率。

問題在于，這些減少軟錯誤的技術(shù)都無法徹底根除軟錯誤。另外，要減少由宇宙射線引發(fā)的錯誤，恐怕需要筑上幾英尺厚的防護(hù)掩體，而這基本上是不現(xiàn)實的。更糟糕的是，軟錯誤對當(dāng)今復(fù)雜系統(tǒng)造成影響的嚴(yán)重程度可能比以前對簡單系統(tǒng)的影響高幾個數(shù)量級。例如，遭遇一個特殊軟錯誤時，當(dāng)如今的一個復(fù)雜系統(tǒng)很可能會要求重新啟動，從而嚴(yán)重影響服務(wù)質(zhì)量(QoS)。這就是為什么起源于航空和航天應(yīng)用中靜態(tài)隨機(jī)存取存儲器(SRAM)的軟錯誤問題如今對網(wǎng)絡(luò)設(shè)備供應(yīng)商提出越來越嚴(yán)峻的考驗，迫使他們采用更嚴(yán)苛的軟錯誤規(guī)范，并施以更嚴(yán)格的約束。

隨著工藝技術(shù)節(jié)點的微縮，SRAM的每百萬位失效率(FIT)也在隨之下降。但三重內(nèi)容可尋址存儲器(TCAM)的情況又怎樣？在90nm節(jié)點，TCAM的故障率與SRAM基本相當(dāng)，但就過去的兩個節(jié)點而言，TCAM的故障率反有增加的趨向，所以我們必須對在65nm節(jié)點TCAM的故障率將超過SRAM的情況做出心理準(zhǔn)備。另外，因故障率是以每百萬位為計算給出的，所以，隨著存儲器容量的不斷增加，該問題將進(jìn)一步惡化。這種趨勢非常關(guān)鍵，因為TCAM是網(wǎng)絡(luò)搜索引擎中使用的一種底層技術(shù)，負(fù)責(zé)對網(wǎng)絡(luò)信息包進(jìn)行分類，并對數(shù)據(jù)包進(jìn)行轉(zhuǎn)發(fā)。

對此，軟錯誤評估工具、軟錯誤專業(yè)服務(wù)和輻射測試服務(wù)提供商iRoCTechnologies公司總裁OlivierLauzeral指出：“SRAM和TCAM中發(fā)生的絕大多數(shù)錯誤都是由單粒子反轉(zhuǎn)(SEU)或單點錯誤(SBE)引起的。因此，為確保最高水準(zhǔn)的網(wǎng)絡(luò)QoS，并為了符合服務(wù)等級協(xié)議，TCAM必須采用最先進(jìn)的糾錯碼(ECC)技術(shù)。那么，這些技術(shù)具體又是怎樣的呢？

為將軟錯誤存續(xù)時間降至最短，需要在系統(tǒng)中的不同層級配置糾錯碼(ECC)。例如，在高可靠性系統(tǒng)中，為確保正確的系統(tǒng)功能，要從自應(yīng)用層起的功能鏈中各個環(huán)節(jié)都施加ECC。但是，在發(fā)現(xiàn)錯誤(或更準(zhǔn)確地說是其造成的后果)的這個點上，將對QoS產(chǎn)生顯著影響。對系統(tǒng)盒體級和網(wǎng)絡(luò)系統(tǒng)級對錯誤進(jìn)行持續(xù)監(jiān)視并予以消除當(dāng)然能夠很好地避免許多災(zāi)難性的錯誤。但是，如果“遲”至應(yīng)用級，則有可能無法對錯誤進(jìn)行糾錯。所以，在芯片級進(jìn)行偵錯的方法具有最高可靠性。

問題在于：是將ECC集成進(jìn)TCAM，還是在外部應(yīng)用ECC？畢竟，外部ECC方法已實施多年，業(yè)內(nèi)經(jīng)過時間洗禮，是一種被證明行之有效的存儲器糾錯方法。但是，外部ECC要求系統(tǒng)設(shè)計師在開發(fā)所需的電路時花費更多設(shè)計時間、付出更大努力和開銷，且所用的器件成本和PCB面積也更高更大。它還需要系統(tǒng)處理器發(fā)布命令和進(jìn)行控制，但這樣也會增加系統(tǒng)延遲，進(jìn)而可能對系統(tǒng)性能帶來負(fù)面影響。隨著TCAM變得越來越大，這些不利因素(特別是性能方面的影響)將會更嚴(yán)重。

將ECC集成進(jìn)TCAM將免去所有這些問題。集成的ECC電路是專門為TCAM優(yōu)化設(shè)計的，從而使完成相應(yīng)功能所需增加的絕對門數(shù)和成本都最少。另外，ECC的工作會被器件延遲所“掩蓋”，而在整個工作條件下，器件的延遲參數(shù)是具體及可預(yù)測的。另外，該設(shè)計和驗證工作是由半導(dǎo)體廠商完成的；所以，系統(tǒng)設(shè)計師不必再為此勞心費力。

正因為這些原因，IDT將ECC集成進(jìn)其搜索加速器。ECC可在內(nèi)核內(nèi)糾正單一錯誤并偵測出雙重錯誤，它還檢測接口的總線奇偶性。非常重要的是，它還檢測最近一直沒訪問過的內(nèi)容以偵測“沉默”的錯誤。所謂“沉默錯誤”，就是那些直到數(shù)據(jù)被訪問前一直保留并可能導(dǎo)致災(zāi)難性后果(例如，一個轉(zhuǎn)錯了的911緊急呼叫)的錯誤。另外，集成ECC工作在后臺模式，從而不會對搜索性能產(chǎn)生影響。

隨著工藝技術(shù)節(jié)點的不斷精進(jìn)，以及TCAM變得越來越大，加之我們想方設(shè)法要從中獲取更多性能方面的好處，對設(shè)備供應(yīng)商來說，用于軟錯誤糾正的集成ECC是唯一具成本效益的方案。糾正軟錯誤不必等到“事后諸葛亮”。