淺析存儲器數(shù)據的軟誤差率(SER)問題
軟誤差率(SER)問題是于上個世紀70年代后期作為一項存儲器數(shù)據課題而受到人們的廣泛關注的,當時DRAM開始呈現(xiàn)出隨機故障的征兆。隨著工藝幾何尺寸的不斷縮小,引起失調所需的臨界電荷的減少速度要比存儲單元中的電荷聚集區(qū)的減小速度快得多。這意味著: 當采用諸如90nm這樣的較小工藝幾何尺寸時,軟誤差是一個更加值得關注的問題,并需要采取進一步的措施來確保軟誤差率被維持在一個可以接受的水平上。
SER的傾向和含意
工藝尺寸的壓縮已經是實現(xiàn)行業(yè)生存的主要工具,而且對增加密度、改善性能和降低成本起著重要的推動作用。隨著器件加工工藝向深亞微米門信號寬度(0.25mm→ 90nm?)邁進,存儲器產品的單元尺寸繼續(xù)縮小,從而導致電壓越來越低(5V→3.3V→1.8V……)以及存儲單元內部電容的減小(10fF→5fF……)。由于電容的減小,存儲器件中的臨界電荷量(一個存儲單元用于保存數(shù)據所需的最小電荷量)繼續(xù)縮小,因而使得它們對SER的自然抵御能力下降。這反過來又意味著能量低得多的a粒子或宇宙射線都有可能對存儲單元形成干擾。
系統(tǒng)級的含意和重要性
軟誤差是以FIT來衡量的。FIT率只不過是10億個器件操作小時中所出現(xiàn)的故障數(shù)。1000 FIT對應于一個約144年的MTTF(平均無故障時間)。為了對軟誤差的重要性有所了解,我們不妨來看一下它們在典型存儲應用中所具有的潛在影響的一些實例。比如,一部采用了一個軟誤差率為1000 FIT/Mbit的4Mbit低功率存儲器的蜂窩電話將很可能每28年出現(xiàn)一次軟誤差。而一個采用了軟誤差率為600 FIT/Mbit的100Gbits同步SRAM的標準高端路由器則有可能每17個小時出現(xiàn)一次錯誤。此外,軟誤差之所以重要還在于目前其FIT率是硬可靠性故障的典型FIT率的10倍以上。顯然,對于蜂窩電話而言軟誤差并無大礙,但那些采用大量存儲器的系統(tǒng)則有可能受到嚴重影響。
SER的根源
現(xiàn)在,您對軟誤差已經有了一個總的概念,下面對這些引發(fā)軟誤差的不同根源的機理逐個做一下簡單的探討。
α粒子的影響
半導體器件封裝所采用的壓?;衔镏杏锌赡芎兄T如Th232 和U238等雜質,這些物質往往會隨著時間的推移發(fā)生衰變。這些雜質會釋放出能量范圍為2"9MeV(百萬電子伏特)的α粒子。在硅材料中,形成電子空穴對所需的能量為3.6eV。這就意味著α粒子有可能生成約106個電子空穴對。耗盡區(qū)中的電場將導致電荷漂移,從而使晶體管承受電流擾動。如果電荷轉移量在0或1的狀態(tài)下超過了存儲于存儲單元中的臨界電荷量(QCRIT),則存儲數(shù)據會發(fā)生翻轉。
宇宙射線的影響
高能量的宇宙射線和太陽粒子會與高空大氣層起反應。當發(fā)生這種情況時,將產生高能量的質子和中子。中子尤其難對付,因為它們能夠滲透到大多數(shù)人造結構中(例如,中子能夠輕易地穿透5英尺厚的混凝土)。這種影響的強度會隨著所處的緯度和海拔高度的不同而變化。在倫敦,該影響要比在赤道地區(qū)嚴重1.2倍。在丹佛,由于其地處高海拔,因此這種影響要比地處海平面的舊金山強三倍。而在飛機上,這種影響將是地面上的100"800倍。
高能量中子的能量范圍為10"800MeV,而且,由于它們不帶電荷,所以與硅材料的反應不同于α粒子。事實上,中子必須轟擊硅原子核才會引起軟誤差。這種碰撞有可能產生α粒子及其他質量較重的離子,從而生成電子空穴對,但這種電子空穴所具有的能量比來自壓?;衔锏牡湫?alpha;粒子所具有的能量高。
熱中子的影響
熱中子有可能是導致軟故障的一個主要根源,它們所具有的能量一般非常低(約25meV)。這些低能量中子很容易被大量存在于BPSG(硼磷硅酸鹽玻璃)電介質層當中的B10同位素所俘獲。俘獲中子將導致一個產生裂變的鋰、一個α粒子和一根γ射線。熱中子只在存在BPSG的情況下才是一項問題。所以熱中子對SER的這一影響可以通過徹底放棄使用B10來抵消。表1為產生軟誤差根源的比較。
測量技術
測量器件對軟誤差的敏感度有多種方法。一種方法是加速測量,另一種方法涉及系統(tǒng)級測量。測試地點所處的地理位置對于最終獲得的數(shù)據有著很大的影響。為了最大限度地減小不同公司之間的測量數(shù)據差異,并在不同的產品售主之間維持一個公共的基準點,業(yè)界采取的標準是讓所有的售主公布其調整至紐約市/海平面這一地理位置的SER FIT率。
加速SER數(shù)據測量有兩種方法:α粒子加速測試和宇宙射線加速測試。器件對α粒子的敏感性可通過在去封頭芯片上布設一個釷或鈾離子源,并測量某一特定時間內的總失調數(shù)以及推斷Fit/Mbits的方法來測定。
上述的兩種加速數(shù)據測量法是對FIT率的一個合理的近似,但往往夸大了實際的故障率。加速數(shù)據可被用作計算一個系統(tǒng)SER測量所需總時間的良好近似。
另一方面,系統(tǒng)SER測量需要在電路板上布設數(shù)以千計的器件,并對系統(tǒng)進行連續(xù)監(jiān)控,以測量所產生的失調的總數(shù)。系統(tǒng)SER是α粒子和宇宙射線SER的累積,而且,該數(shù)據在很大程度上取決于系統(tǒng)所處的地理位置。消除一個系統(tǒng)中的α粒子-宇宙射線影響的良策之一是在把系統(tǒng)置于數(shù)米深的地下(此時宇宙射線的影響可以忽略)的情況下進行數(shù)據測量,并隨后在高海拔上(此時α粒子的影響完全可以忽略不計)對系統(tǒng)實施監(jiān)控。
系統(tǒng)軟誤差率測量成本相當昂貴,常常由存儲器售主從技術(而不是器件)的層面上來進行,旨在縮減成本。
抑制SER
降低SER的方法分為幾類,包括工藝變更(埋層、三層阱等)、電路強化(阻性反饋、在存儲節(jié)點上設置較高的電容、較高的驅動電壓等)、設計強化(冗余等)和系統(tǒng)級變更。
系統(tǒng)級對策
在系統(tǒng)級上,可根據讀操作來進行誤差檢測和校正,并通過使SRAM的延遲(等待時間)略有增加的方法來抑制SRAM的SER上升。這樣可對數(shù)據進行一位誤差校正并報告多位誤差。還可以借助系統(tǒng)和存儲器架構設計來實現(xiàn)某些改進。存儲器拓撲位圖可以按照使一個實際的多位事件在一個字節(jié)中導致一個多位或一位誤差的方式來構成。ECC在校正一位誤差方面是非常有效的,但采用它同時也意味著芯片面積將至少增加20%。
器件工藝/封裝級對策
從器件設計的角度來看,抑制SER并增強器件對SER的抵御能力的途徑之一是增加存儲單元中所存儲的臨界電荷量。人們注意到,PMOS門限電壓可減少存儲單元的恢復時間,這間接起到了提高SER抵御能力的作用。另外,在發(fā)生軟誤差期間所產生的電荷可利用埋入式結點(三層阱架構)來驅散,以增加遠離放射性區(qū)的再結合。這將生成一個與NMOS耗盡層方向相反的電場,并強制電荷進入襯底。然而,這種三層阱架構只是在輻射發(fā)生于NMOS區(qū)域中的時候才能起到一定的補救作用。
結語
隨著加工工藝尺寸的日益縮小,“軟”誤差對存儲器件的影響已經從原先的“無關緊要”演變成為系統(tǒng)設計中需要加以認真考慮的重要事項。賽普拉斯等SRAM售主已經在工藝開發(fā)和產品設計當中采取了相應的對策,以求最大限度地降低器件對SER的敏感度,并由此將SRAM的應用范圍擴展到遠遠小于90nm的工藝幾何尺寸。憑借在系統(tǒng)設計和產品設計水平的正確對策,SRAM仍將是多代工藝中一種可行的存儲器解決方案。
更多計算機與外設信息請關注:21ic計算機與外設頻道