具有64位數(shù)據(jù)檢糾錯功能的FPGA模塊設(shè)計(jì)
摘要:星載計(jì)算機(jī)系統(tǒng)中電子器件容易受到空間環(huán)境電磁場的輻射和重粒子的沖擊,從而導(dǎo)致器件運(yùn)行出錯,特別是存儲器中數(shù)據(jù)容易出現(xiàn)錯誤,需要具有檢糾錯功能的電路模塊對其進(jìn)行糾正,以免造成嚴(yán)重的后果?;跐h明碼的糾錯原理.根據(jù)對64位數(shù)據(jù)進(jìn)行檢糾錯處理的需要,設(shè)計(jì)一個利用8位校驗(yàn)碼,以實(shí)現(xiàn)該功能的算法邏輯,并通過FPGA實(shí)現(xiàn)。經(jīng)過仿真驗(yàn)證,該模塊具備檢測2位錯誤,糾正1位錯誤的功能,而且也能較好地滿足實(shí)時性的要求,具有一定的實(shí)際應(yīng)用意義。
關(guān)鍵詞:單粒子翻轉(zhuǎn);漢明碼;檢錯糾錯現(xiàn)場可編程邏輯門電路
0 引 言
隨著現(xiàn)代技術(shù)的發(fā)展,作為現(xiàn)代高科技代表的航天工程,對星載計(jì)算機(jī)的依賴程度也越來越高。由于宇宙中存在著大量的帶電粒子,星載計(jì)算機(jī)硬件系統(tǒng)的電子器件會受到電磁場的輻射和重粒子的沖擊,其相互作用產(chǎn)生各種效應(yīng),其中單粒子反轉(zhuǎn)(SEU)效應(yīng)的影響尤為明顯,它將引起衛(wèi)星工作的異?;蚬收?。SEU是由空間輻射環(huán)境導(dǎo)致的,重離子運(yùn)動徑跡周圍產(chǎn)生的電荷被靈敏電極收集,形成瞬態(tài)電流,觸發(fā)邏輯電路,導(dǎo)致邏輯狀態(tài)翻轉(zhuǎn),引起誤操作,使得星載計(jì)算機(jī)上的數(shù)據(jù)可能出現(xiàn)小概率錯誤,其主要發(fā)生于存儲器件和邏輯電路中,導(dǎo)致存儲器單元的內(nèi)容發(fā)生翻轉(zhuǎn)(1變?yōu)?或O變?yōu)?)。這種錯誤若不及時進(jìn)行糾正,將會影響計(jì)算機(jī)系統(tǒng)的運(yùn)行和關(guān)鍵數(shù)據(jù)的正確性,造成程序運(yùn)行不穩(wěn)定和設(shè)備狀態(tài)改變。利用糾錯編碼進(jìn)行檢糾錯電路設(shè)計(jì)是一種使星載計(jì)算機(jī)中SRAM具備抗SEU能力的有效方法,它能夠降低數(shù)據(jù)出錯的概率,保障計(jì)算機(jī)系統(tǒng)的正常運(yùn)行。
1 糾錯原理
漢明碼(Hamming Code)是由Richard Hamming于1950年提出的,屬于線性分組碼的范疇,其基本原理是將信息碼元與監(jiān)督碼元通過線性方程式聯(lián)系起來的,每一個監(jiān)督位被編在傳輸碼字的特定比特位置上。系統(tǒng)對于錯誤的數(shù)位無論是原有信息位中的,還是附加監(jiān)督位中的都能把它分離出來。(n,k)線性分組碼的生成矩陣G和校驗(yàn)矩陣H分別為n×k和n×(n-k)維矩陣,其中校驗(yàn)矩陣H決定信息位與校驗(yàn)位的關(guān)系,在編碼和譯碼中都要用到。線性碼的最小碼距為d,即校驗(yàn)矩陣H中任意d-1列線性無關(guān),它與碼的糾錯能力有以下關(guān)系:
(1)檢測P個隨機(jī)錯誤,要求d≥e+1;
(2)糾t個隨機(jī)錯誤,要求d≥2t+1;
(3)糾t個隨機(jī)錯誤,同時檢測e(e≥t+1)個隨機(jī)錯誤,要求d≥e+t+1。
作為一種典型的線性分組碼,標(biāo)準(zhǔn)漢明碼的碼長n=2m-1,監(jiān)督位數(shù)為m,信息位數(shù)為k=n-m,最小碼距d=3,因此它的糾錯能力t=1,是一種常用糾單個位錯誤的編碼方式。還可以根據(jù)需要對標(biāo)準(zhǔn)漢明碼進(jìn)行擴(kuò)展,增加1個校驗(yàn)位對所有位進(jìn)行監(jiān)測,就得到擴(kuò)展?jié)h明碼。1個(n,k)漢明碼經(jīng)過擴(kuò)展以后,就變成了(n+1,k)漢明碼。擴(kuò)展以后的漢明碼d=4,t=2,e=1,可以糾正單個位錯誤,并檢測出雙位的錯誤。對64位的數(shù)據(jù)進(jìn)行糾錯設(shè)計(jì),滿足信息位數(shù)大于64要求的最短的標(biāo)準(zhǔn)漢明碼為n=26-1時的(127,120)碼,它具有7個監(jiān)督校驗(yàn)位。根據(jù)漢明碼信息位刪減后其糾錯能力較之前不會降低的特性,將該碼的信息位縮短為64位,使用了(71,64)的刪減漢明碼。這里設(shè)計(jì)了一種7個校驗(yàn)位同64個信息位的對應(yīng)計(jì)算關(guān)系如圖1所示。
圖1中DA0~DA63為信息位;CC0~CC6為監(jiān)督校驗(yàn)位。其中CCO是所有位于編號末位數(shù)為1列中信息位數(shù)據(jù)的奇偶校驗(yàn)計(jì)算結(jié)果。與之類似,CCl對應(yīng)于所有位于編號次低位數(shù)為1列中的信息位。同理,CC3~CC6分別對應(yīng)了行號各位數(shù)為1行中的信息位數(shù)據(jù)。通過這個對應(yīng)關(guān)系表,可以得出整個漢明碼的生成公式:
M=DG
式中:M為生成的(71,64)漢明碼矩陣,每個行向量是一組漢明碼;D為信息位數(shù)據(jù)矩陣行,64個信息位組成一個行向量;G成為漢明碼生成矩陣,可以根據(jù)上述的對應(yīng)計(jì)算關(guān)系得出來。
當(dāng)執(zhí)行糾錯功能時,需要同時讀取數(shù)據(jù)位和監(jiān)督校驗(yàn)位,并且對所讀取的數(shù)據(jù)位按照校驗(yàn)位的生成算法重新進(jìn)行1次校驗(yàn)位的生成(可以用NCC0~NCC6來表示),通過CC0~CC6和NCCO~NCC6的比對來進(jìn)行檢錯糾錯運(yùn)算。如果發(fā)生1位數(shù)據(jù)翻轉(zhuǎn)錯誤,則新生成的校驗(yàn)位NCC中會有若干位同原先的CC校驗(yàn)位相異,通過相異的位可以對數(shù)據(jù)進(jìn)行糾錯。假設(shè)目前檢測出CCl,CC2,CC4,CC5這4個校驗(yàn)位同新生成的NCC中對應(yīng)位的異或運(yùn)算結(jié)果為1,如圖2中細(xì)箭頭所示。
CCl校驗(yàn)位相異對應(yīng)出錯數(shù)據(jù)位列號倒數(shù)第二位為1;CC2對應(yīng)列號倒數(shù)第3位為1,可以推出錯誤數(shù)據(jù)位的列號為110,同理行號相關(guān)的幾個校驗(yàn)位中CC4,CC5出現(xiàn)相異可以推出錯誤數(shù)據(jù)位的行號為0110,由此可以知道出錯的數(shù)據(jù)位是DA22,再對確認(rèn)出錯的數(shù)據(jù)位取反就實(shí)現(xiàn)了糾正1位錯誤的功能。而如果出現(xiàn)2位錯誤,比如數(shù)據(jù)位DAl和DA34同時出錯,如圖2中所示,這會引起新老校驗(yàn)位中的CC0,CCl,CC3,CC4,CC6同時出現(xiàn)相異。這時如果還按照上述糾正1位錯誤時的算法,就會推出出錯數(shù)據(jù)位的行號為1011列號為011,這樣,就會認(rèn)為是數(shù)據(jù)為DA51發(fā)生了翻轉(zhuǎn),從而產(chǎn)生錯誤的檢糾錯結(jié)果,如圖2中粗箭頭所示。以前的測試數(shù)據(jù)表明,若在近地軌道中,SRAM存儲器中的每一個存儲數(shù)據(jù)位一天之內(nèi)發(fā)生SEU概率約是10-7(位·天),則可以推導(dǎo)出這個SRAM中1組64位的數(shù)據(jù),在一天時間內(nèi)有2位同時出現(xiàn)錯誤的可能性約為10-10(次·天),在南大西洋輻射異常區(qū)和太陽活動高峰期,這種情況的發(fā)生率可能還會提高1~2個數(shù)量級。
為了避免在發(fā)生雙位元錯誤時出現(xiàn)錯檢錯糾的情況,需要增加1個校驗(yàn)位CC7,它是所有數(shù)據(jù)位的奇偶校驗(yàn)結(jié)果,即CC7=DA0⊕DAl⊕DA2⊕DA3⊕…⊕DA63。這樣在每次出現(xiàn)1個數(shù)據(jù)位錯誤時,新生成的NCC7也都會與先前的值相異,而當(dāng)數(shù)據(jù)位中有2個存儲單元出錯,其他校驗(yàn)位會檢測有錯誤出現(xiàn),但NCC7不會發(fā)生變化,NCC7⊕CC7=0,這時就可以判斷出有雙位錯誤,從而使系統(tǒng)實(shí)現(xiàn)了檢測雙位錯誤的功能。
2 設(shè)計(jì)實(shí)現(xiàn)
將所有與主存儲器中數(shù)據(jù)一一對應(yīng)的校驗(yàn)位(CCl~CC8)存儲在另一個獨(dú)立的8位SRAM中,系統(tǒng)的硬件結(jié)構(gòu)如圖3所示。
存儲校驗(yàn)位的8位數(shù)據(jù)SRAM2同樣遇到出現(xiàn)SEU效應(yīng)得可能,通過分析可以知道,SRAM2出現(xiàn)1位數(shù)據(jù)翻轉(zhuǎn)時,只有對應(yīng)的一位數(shù)值與通過數(shù)據(jù)位新生成的校驗(yàn)位數(shù)值相異,而其他的7個校驗(yàn)位數(shù)據(jù)都沒有變化,此時對對應(yīng)的校驗(yàn)位取反就實(shí)現(xiàn)了糾錯功能。對于出現(xiàn)雙位元錯誤的可能,通過理論分析,可以知道一組8位的校驗(yàn)數(shù)據(jù)在一天中出現(xiàn)這種情況的概率約為7×10-13。,相比于主存儲器而言降低了兩三個數(shù)量級,暫時可以不予考慮。
FPGA的檢糾錯邏輯設(shè)計(jì)采用VHDL語言實(shí)現(xiàn)。設(shè)計(jì)使主存儲器SRAMl中的64位數(shù)據(jù)新生成的NCC[7:0]與SRAM2中的7位校驗(yàn)位CC[7:0]一起經(jīng)過異或運(yùn)算,生成8位的校正子,其中前7位就對應(yīng)于前述定位錯誤數(shù)據(jù)的行號和列號的值,第8位用于判斷是否出現(xiàn)雙位元錯誤。8位校驗(yàn)子的值可以求出1個64位糾錯掩碼(Mask),用以校正單位元錯誤。如果未檢測到錯誤,此掩碼的所有位都為零。如果檢測到單位元錯誤,相應(yīng)掩碼會屏蔽除錯誤位之外的所有位。下一階段,使用原始數(shù)據(jù)對此掩碼進(jìn)行異或運(yùn)算。最終,錯誤位被反轉(zhuǎn)(或校正)至正確狀態(tài)。如果檢測到雙位元錯誤,所有掩碼位也都為零。使用1個雙位的數(shù)組(ER[1,O])用于報(bào)告檢測的錯誤類型(“OO”表示無錯、“01”表示單位元錯誤、“10”表示雙位錯誤、“11”表示無法判斷的多位錯誤)。整個糾錯邏輯的工作過程如圖4所示。生成錯誤類型報(bào)告數(shù)組和相應(yīng)的校正掩碼的工作都在同一時鐘周期內(nèi)完成,體現(xiàn)了采用FPGA進(jìn)行并行處理的獨(dú)特優(yōu)勢。
3 結(jié) 語
對綜合后進(jìn)行仿真的結(jié)果進(jìn)行分析,期間人為地加入1位、2位、3位隨機(jī)分布的數(shù)據(jù)位錯誤,該系統(tǒng)能夠在2個系統(tǒng)時鐘周期內(nèi)對1位錯誤的情況成功地檢測并予以糾正;對2位和3位錯誤情況也都進(jìn)行了正確的類別判定。仿真結(jié)果表明,設(shè)計(jì)的系統(tǒng)比較理想,能滿足設(shè)計(jì)要求。
然而對于整個星載計(jì)算機(jī)系統(tǒng)而言,空間中的應(yīng)用環(huán)境非??量蹋椛浜土W記_擊造成的影響絕不僅只在SRAM上,對FPGA,DSP等芯片同樣也會帶來各種復(fù)雜的影響,要消除這些影響,確保計(jì)算機(jī)系統(tǒng)可靠的工作,還需要廣大科技工作者進(jìn)行大量的工作。