針對(duì)FPGA內(nèi)缺陷成團(tuán)的電路可靠性設(shè)計(jì)研究
引 言
微小衛(wèi)星促進(jìn)了專用集成電路(ASIC—ApplicatiON Spceific Integrated Circuit)在航天領(lǐng)域的應(yīng)用?,F(xiàn)場(chǎng)可編程門陣列(FPGA —Field Programable Gate Array)作為ASIC的特殊實(shí)現(xiàn)形式,是中國(guó)航天目前集成設(shè)計(jì)的最佳技術(shù)選擇,也是中國(guó)微小衛(wèi)星發(fā)展的必由之路。
微小衛(wèi)星對(duì)其功耗、質(zhì)量和體積提出了較苛刻的要求,因此采用FPGA片內(nèi)冗余容錯(cuò)代替片外冗余容錯(cuò),是實(shí)現(xiàn)系統(tǒng)可靠性指標(biāo)的另一種好辦法。
應(yīng)用于空間環(huán)境的FPGA,其時(shí)序邏輯需要防范空間粒子輻射引起的單粒子翻轉(zhuǎn),片內(nèi)三模冗余(TMR) 是應(yīng)對(duì)單粒子翻轉(zhuǎn)的主要手段。因此,采用FPGA片內(nèi)冗余容錯(cuò)方式提高可靠性,是非常必要的。
和其它集成電路一樣,F(xiàn)PGA內(nèi)部存在制造缺陷。研究發(fā)現(xiàn)這些缺陷的空間分布是不均勻的,表現(xiàn)出成團(tuán)性。FPGA內(nèi)部缺陷成團(tuán)對(duì)FPGA片內(nèi)冗余容錯(cuò)設(shè)計(jì)會(huì)產(chǎn)生負(fù)面影響,需要開展針對(duì)性的研究并提出應(yīng)對(duì)策略,以提高FPGA片內(nèi)冗余容錯(cuò)設(shè)計(jì)的有效性。
缺陷成團(tuán)的相關(guān)研究
缺陷成團(tuán)在電子系統(tǒng)設(shè)計(jì)領(lǐng)域還未被充分認(rèn)識(shí)和重視,但作為集成電路制造領(lǐng)域的研究課題,卻有相當(dāng)長(zhǎng)的研究歷史。
(1) 集成電路缺陷類型
FPGA等集成電路(IC—Integrate CIRcuit)在制造過(guò)程中會(huì)產(chǎn)生缺陷。制造缺陷分成全局缺陷和局部缺陷。全局缺陷可以控制,但局部缺陷呈現(xiàn)隨機(jī)性,難以避免,并隨著芯片面積的增大而增加。在出廠測(cè)試中可以檢測(cè)出絕大部分的局部缺陷,但有一些局部缺陷由于其影響一時(shí)未能顯現(xiàn)而通過(guò)了檢測(cè)設(shè)備的檢測(cè),這些局部缺陷經(jīng)過(guò)一段時(shí)間的使用后會(huì)逐步擴(kuò)展,引起電路故障??臻g飛行器選用的FPGA,盡管經(jīng)過(guò)了嚴(yán)格的考核和篩選,但由于其工作于惡劣的太空環(huán)境,仍然會(huì)誘發(fā)潛在的微小缺陷,引起電路故障,從而對(duì)航天電子產(chǎn)品的可靠性構(gòu)成嚴(yán)重威脅。
(2) 集成電路缺陷的空間分布及成品率預(yù)計(jì)模型
局部缺陷降低了IC的成品率(Manufacturing Yield),為此需要在成品率預(yù)計(jì)的基礎(chǔ)上采用相應(yīng)的冗余容錯(cuò)措施,以滿足生產(chǎn)成品率要求。
IC芯片(Chip)制作在一定尺寸的硅圓片(Wafer)上,若干個(gè)IC芯片在Wafer上按行、列整齊排列,每個(gè)芯片內(nèi)部含有若干個(gè)邏輯塊(Logic Block)。FPGA、CPLD、存儲(chǔ)器等IC芯片,其構(gòu)造邏輯塊在內(nèi)部也是按行、列整齊排列的。圖1(a)是硅圓片示意圖,內(nèi)部整齊排列著芯片;圖1(b)是FPGA芯片的示意圖,內(nèi)部排列著邏輯塊,邏輯塊之間是布線通道。
圖1 硅圓片、芯片及內(nèi)部缺陷分布示意圖
早期研究認(rèn)為,在Wafer和IC內(nèi)缺陷的空間分布是均勻的。假定一個(gè)IC芯片內(nèi)部含有n個(gè)邏輯塊,每個(gè)邏輯塊的平均可靠度為p。對(duì)于內(nèi)部無(wú)冗余容錯(cuò)的IC,成品IC必須是n個(gè)邏輯塊均無(wú)故障。設(shè)P為其預(yù)計(jì)成品率,則成品率預(yù)計(jì)模型為
在IC中有規(guī)律地增加一些備用邏輯塊,用這些備用邏輯塊代替故障邏輯塊,以提高IC成品率。假定IC有n個(gè)邏輯塊,其中r =n - k ,為備用邏輯塊,IC是成品的條件是n個(gè)邏輯塊中有k個(gè)以上無(wú)故障,其概率為
因此采用冗余容錯(cuò)電路IC的成品率預(yù)計(jì)模型為
式(2)是IC成品率預(yù)計(jì)的二項(xiàng)式分布模型。用此模型預(yù)計(jì)IC成品率,預(yù)計(jì)值與實(shí)際值存在較大差異。大量實(shí)驗(yàn)觀測(cè)發(fā)現(xiàn),二項(xiàng)式分布成品率預(yù)計(jì)模型不準(zhǔn)確的根源在于IC內(nèi)部缺陷的空間分布是不均勻的,呈現(xiàn)成團(tuán)效應(yīng)(CluSTering)。缺陷成團(tuán)的主要原因是IC工藝的批次性,工藝條件會(huì)隨著時(shí)間和空間發(fā)生變化,導(dǎo)致IC芯片的批次之間,同一批的圓片與圓片之間,甚至是同一圓片的芯片與芯片之間,缺陷的分布都不同。邏輯塊的可靠度p不是常數(shù),而是隨機(jī)變量。
缺陷成團(tuán)的表象如圖1 所示,圖中黑點(diǎn)代表缺陷,圓框標(biāo)注的是一個(gè)缺陷團(tuán)。缺陷團(tuán)面積是個(gè)隨機(jī)值,大面積缺陷團(tuán)可以覆蓋整個(gè)圓晶片,小面積缺陷團(tuán)局限在一個(gè)芯片內(nèi),覆蓋相鄰的若干邏輯塊。
缺陷成團(tuán)使得鄰近邏輯塊的缺陷存在相關(guān)性。要建立反映缺陷成團(tuán)性的成品率預(yù)計(jì)模型,需要對(duì)復(fù)雜的多變量聯(lián)合概率密度函數(shù)積分,可見用解析方法求得成品率幾乎是不可能的。因此,通常采用數(shù)學(xué)逼近的方法,依靠系列可解析函數(shù)逼近成品率預(yù)計(jì)模型。
成品率預(yù)計(jì)的負(fù)二項(xiàng)式分布模型和復(fù)合泊松(Poisson) 分布模型,如Neymann TypeA ,Poisson Binomial 分布模型,由于考慮了缺陷的成團(tuán)性,都能較準(zhǔn)確地預(yù)計(jì)成品率。Stapper等假定p服從B分布,提出成品率復(fù)合二項(xiàng)式分布模型,這一模型不僅可以較準(zhǔn)確地預(yù)計(jì)IC成品率,而且便于分析計(jì)算。成品率復(fù)合二項(xiàng)式分布模型為
式中p-是p的均值,u是B分布的一個(gè)參數(shù)。
式(3)與式(2)相比,是在式(2)的基礎(chǔ)上增加了一個(gè)含參數(shù)u、p-的比例因子,從而反映出缺陷成團(tuán)對(duì)成品率的影響。
缺陷成團(tuán)對(duì)FPGA片內(nèi)冗余容錯(cuò)電路可靠性的影響
衛(wèi)星電子系統(tǒng)的功能電路布局于FPGA內(nèi),功能電路由芯片內(nèi)的若干簡(jiǎn)單邏輯塊構(gòu)成。為提高功能電路的可靠性,往往需要在片內(nèi)對(duì)功能電路整體采取冗余容錯(cuò)措施,如最常用的單備份冗余容錯(cuò)形式。冗余容錯(cuò)電路包括主份電路、若干備份電路和切換電路,其可靠性是由主份電路、備份電路和切換電路共同決定的。如果主份和備份電路遠(yuǎn)比切換電路復(fù)雜,則可以忽略切換電路對(duì)冗余容錯(cuò)電路可靠性的影響,以下的討論就是針對(duì)這一情況進(jìn)行的。
對(duì)于冗余容錯(cuò)電路,不允許主份和備份電路都出現(xiàn)故障,引起冗余容錯(cuò)電路失效。因此有必要采取措施,盡可能降低冗余容錯(cuò)電路的失效率。
無(wú)論是FPGA內(nèi)邏輯單元一類的簡(jiǎn)單邏輯塊,還是處理器陣列中的處理器單元(PE)一類的復(fù)雜邏輯塊,都可以采用成品率復(fù)合二項(xiàng)式分布模型分析其成品率。若把冗余容錯(cuò)電路的主份和備份電路分別看成是片內(nèi)的一個(gè)復(fù)雜邏輯塊,則可以用此模型分析缺陷成團(tuán)對(duì)冗余容錯(cuò)電路可靠性產(chǎn)生的影響。
復(fù)合二項(xiàng)式分布模型的數(shù)學(xué)推導(dǎo)
經(jīng)分析,式(3)給出的成品率復(fù)合二項(xiàng)式分布模型表達(dá)式存在錯(cuò)誤,Stapper在文獻(xiàn)中沒有給出推導(dǎo)過(guò)程,因此首先從數(shù)學(xué)上對(duì)此模型進(jìn)行了嚴(yán)格推導(dǎo)。推導(dǎo)的關(guān)鍵是利用Γ函數(shù)與B函數(shù)的關(guān)系:
缺陷成團(tuán)對(duì)冗余容錯(cuò)電路可靠性影響分析
式(4)中的第三項(xiàng)對(duì)應(yīng)n冗余容錯(cuò)電路的無(wú)故障概率Pn為
式(4) 中的第一項(xiàng)對(duì)應(yīng)n 冗余容錯(cuò)電路的失效率Qn 為
分析式(5) 、(6) ,當(dāng)參數(shù)u 趨近于無(wú)窮大時(shí)
當(dāng)參數(shù)u 趨近于零時(shí)
式(7)、(8)表明,當(dāng)參數(shù)u 趨近于無(wú)窮大時(shí),Pn和Qn的值等于缺陷均勻分布時(shí)的值,說(shuō)明此時(shí)缺陷不具備成團(tuán)性,而是呈均勻分布狀態(tài); 式(9)、(10)表明,當(dāng)參數(shù)u趨近于零時(shí),Pn和Qn的值分別等于主份電路的可靠度和共效率。
參數(shù)u反映了IC 內(nèi)部缺陷成團(tuán)性的強(qiáng)弱,稱為模型的成團(tuán)因子。u 越大,缺陷成團(tuán)性越弱;u 越小,缺陷成團(tuán)性越強(qiáng)。
進(jìn)一步分析表達(dá)式(5)、(6),對(duì)于任意的u>0 ,由于
所以有
。
缺陷成團(tuán)時(shí)片內(nèi)冗余容錯(cuò)電路的無(wú)故障概率和失效率比缺陷均勻分布時(shí)的都要高。缺陷成團(tuán)性增大了冗余容錯(cuò)電路的失效率,削弱了冗余容錯(cuò)的可靠性增長(zhǎng)功效。
多項(xiàng)式
,其值隨參數(shù)u增大而增大,因此失效率Qn隨參數(shù)u增大而減小,并且在u=0時(shí)取得最大值。成團(tuán)因子u越大,冗余容錯(cuò)電路的失效率越低、可靠性就越高。這一結(jié)論對(duì)冗余容錯(cuò)電路可靠性設(shè)計(jì)具有重要指導(dǎo)意義。
成團(tuán)因子
缺陷成團(tuán)性強(qiáng)弱可以理解為缺陷相關(guān)性的強(qiáng)弱。缺陷成團(tuán)性越強(qiáng),缺陷相關(guān)性就越強(qiáng),成團(tuán)因子越小,反之亦然。若應(yīng)用式(4)分析一個(gè)冗余容錯(cuò)電路,則成團(tuán)因子反映的是冗余容錯(cuò)電。路內(nèi)缺陷的平均相關(guān)度缺陷團(tuán)面積是個(gè)隨機(jī)值,當(dāng)冗余容錯(cuò)電路面積小于最小缺陷團(tuán)面積時(shí),相應(yīng)成團(tuán)因子的值只取決于缺陷團(tuán)內(nèi)缺陷相關(guān)性的強(qiáng)弱,與冗余容錯(cuò)電路面積無(wú)關(guān);當(dāng)冗余容錯(cuò)電路面積大于最大缺陷團(tuán)面積時(shí),此時(shí)成團(tuán)因子不僅受缺陷成團(tuán)性強(qiáng)弱的影響,而且隨冗余容錯(cuò)電路面積的變化而變化。
圖2 成團(tuán)因子α與冗余容錯(cuò)電路面積的關(guān)系
IC成品率預(yù)計(jì)常用到負(fù)二項(xiàng)式分布模型,此模型中的參數(shù)α是模型的成團(tuán)因子。Stapper采用回歸分析法分析驗(yàn)證成團(tuán)因子α,得出成團(tuán)因子與冗余容錯(cuò)電路面積的關(guān)系,如圖2所示。曲線中的OA水平直線段表示α維持不變,對(duì)應(yīng)冗余容錯(cuò)電路面積小于所有缺陷團(tuán)面積的情況;曲線中的BC直線段表明α與冗余容錯(cuò)電路塊面積成正比,對(duì)應(yīng)冗余容錯(cuò)電路面積大于所有缺陷團(tuán)面積的情況; 曲線中的AB曲線段表明α隨冗余容錯(cuò)電路面積增大而呈現(xiàn)非線性增長(zhǎng),此時(shí)冗余容錯(cuò)電路面積介于最小缺陷團(tuán)面積和最大缺陷團(tuán)面積之間。
在沒有缺陷團(tuán)面積數(shù)據(jù)時(shí),一般假定FPGA內(nèi)缺陷團(tuán)面積小至邏輯塊,大至整個(gè)芯片,并且在這范圍內(nèi)連續(xù)分布。此時(shí)圖2中的點(diǎn)A、B分別趨近點(diǎn)O、C,在曲線整個(gè)范圍內(nèi),成團(tuán)因子隨冗余容錯(cuò)電路塊面積增大而呈非線性增長(zhǎng)。
實(shí)驗(yàn)數(shù)據(jù)表明,在冗余容錯(cuò)電路面積小于所有缺陷團(tuán)面積時(shí),成團(tuán)成子u維持不變。成團(tuán)因子α和u物理意義相同,遵循相似的變化規(guī)律。
缺陷成團(tuán)時(shí)提高冗余容錯(cuò)電路可靠性的策略
冗余容錯(cuò)電路的主份和備份電路布局于FPGA芯片內(nèi)。當(dāng)FPGA內(nèi)缺陷成團(tuán)時(shí),可以通過(guò)調(diào)整布局,增大主、備份電路的幾何距離,降低冗余容錯(cuò)電路的失效率。
分析表明,在缺陷成團(tuán)時(shí),冗余容錯(cuò)電路的失效率取決于所對(duì)應(yīng)成團(tuán)因子的大小。成團(tuán)因子決定于冗余容錯(cuò)電路的等效面積。冗余容錯(cuò)電路的等效面積等于涵蓋整個(gè)冗余容錯(cuò)電路的最小面積,如圖3所示。增大主、備份電路的幾何距率,就是增大冗余容錯(cuò)電路的等效面積,從而增大對(duì)應(yīng)成團(tuán)因子的值。增大成團(tuán)因子,就能降低冗余容錯(cuò)電路的失效率,提高其可靠性。
圖3 冗余容錯(cuò)電路布局示意圖
提高冗余容錯(cuò)電路可靠性策略的定量分析
由于成團(tuán)因子與冗余容錯(cuò)電路等效面積之間存在復(fù)雜非線性關(guān)系,無(wú)法為上述策略建立分析模型進(jìn)行定量分析。但當(dāng)FPGA內(nèi)只有小于冗余容錯(cuò)電路面積的缺陷團(tuán),且成團(tuán)因子與冗余容錯(cuò)電路等效面積成線性關(guān)系,或者可以用線性關(guān)系近似時(shí),則可以建立相應(yīng)的分析模型進(jìn)行定量分析。
考慮一個(gè)單模塊單備份容錯(cuò)電路,如圖3 所示。A 是主份電路,B 是備份電路。如果單純考慮信號(hào)時(shí)延,則布局時(shí)應(yīng)將主、備份電路相鄰排列。稱這一布局為單模塊單備份容錯(cuò)電路的基本布局,基本布局的等效面積為2S0(S0為主份電路面積) ,此時(shí)主、備份電路之間的距離為0,對(duì)應(yīng)成團(tuán)因子為u0,則有基本布局的失效概率Q02為
增大主、備份電路的距離,在主、備份之間留有面積等于m 個(gè)主份電路面積的空間。此布局為調(diào)整布局。調(diào)整布局的等效面積為(m+2)S0 ,此時(shí)主、備份電路之間的距離為m ,對(duì)應(yīng)成團(tuán)因子為um 。
um 和u0有如下關(guān)系
調(diào)整布局的失效率Qm
無(wú)論成團(tuán)因子u0取何值,調(diào)整布局都能夠降低冗余容錯(cuò)電路的失效率。表1 數(shù)據(jù)反映的是基本布局和特定調(diào)整布局(m=2)失效率隨成團(tuán)因子u0的變化情況,主份電路的可靠度p-=0.99999。
在成團(tuán)因子較寬的一個(gè)變化范圍內(nèi),特定調(diào)整布局(m=2)失效率比基本布局失效率降低了約1/2。
表1 失效率隨成團(tuán)因子u0 變化表
圖4 冗余容錯(cuò)電路失效率隨距離變化關(guān)系
冗余容錯(cuò)電路的主、備份電路間距離越大,冗余容錯(cuò)電路失效率越低。圖4是冗余容錯(cuò)電路失效率隨主、備份電路之間的距離變化(m變化)的情況,曲線對(duì)應(yīng)的主份電路可靠度p-= 0.99999,成團(tuán)因子u0=6。
表2 列出了不同布局失效率的具體改善數(shù)據(jù),當(dāng)m=8時(shí),失效率約為基本布局的1/5。
表2 冗余容錯(cuò)電路失效率隨布局變化表
缺陷成團(tuán)時(shí)芯片內(nèi)備份電路的優(yōu)化布局原則
每種冗余容錯(cuò)方式,在FPGA的矩形(含正方形) 芯片內(nèi)實(shí)現(xiàn)時(shí),可以選擇不同的布局方案。應(yīng)用本章提出的策略,針對(duì)常用的幾種冗余容錯(cuò)方式,從可靠性角度提出了最佳的一個(gè)布局方案。
圖5(a)是單模塊單備份容錯(cuò)形式。按圖5(b)所示,將主、備份電路沿芯片對(duì)角線布置,可以獲得最低的失效率。切換電路布置在與主、備份電路距離相同的位置上,保證切換電路的兩路輸入信號(hào)時(shí)延基本相同。主、備份電路的輸入分別從就近的芯片引腳輸入,避免占用內(nèi)部大量的互連資源。兩引腳再通過(guò)PCB板上的印制線相連。
圖5 單模塊單備份容錯(cuò)形式布局
布局、時(shí)延與資源利用率
依據(jù)本章提出的策略進(jìn)行布局,冗余容錯(cuò)模塊之間存在較大的空間,在這空間里可以布置其他功能電路。但是冗余容錯(cuò)模塊之間的長(zhǎng)距離信號(hào)連接需要消耗FPGA內(nèi)有限的連線資源,往往由于連線資源消耗殆盡,無(wú)法繼續(xù)布置其他的功能電路,從而降低了芯片邏輯資源的利用率。因此,冗余容錯(cuò)模塊可靠性的提升也是以犧牲資源為代價(jià)的。解決這一問(wèn)題的一個(gè)有效辦法是利用FPGA豐富的輸入輸出管腳資源,將片內(nèi)的長(zhǎng)線連接改為片外PCB板印制導(dǎo)線的連接。
無(wú)論是片內(nèi)的還是片外的長(zhǎng)線連接,都勢(shì)必引起較大的信號(hào)時(shí)延,這會(huì)限制電路的最高工作頻率,但隨著FPGA性能的不斷改善,信號(hào)時(shí)延問(wèn)題會(huì)逐步緩解。
結(jié)束語(yǔ)
基本FPGA的片內(nèi)冗余容錯(cuò)將會(huì)是提高微小衛(wèi)星可靠性的重要手段。隨著FPGA規(guī)模的增大和集成密度的提高,內(nèi)部缺陷發(fā)生的概率也在增大,因此研究缺陷成團(tuán)性對(duì)片內(nèi)冗余容錯(cuò)的影響,具有較重要的工程價(jià)值。后續(xù)工作需要研究缺陷成團(tuán)對(duì)一些常用片內(nèi)冗余容錯(cuò)方式如TMR的影響,提出相應(yīng)的應(yīng)對(duì)策略。在此基礎(chǔ)上再進(jìn)一步探討在電子設(shè)計(jì)自動(dòng)化環(huán)境下,高效實(shí)現(xiàn)應(yīng)對(duì)缺陷成團(tuán)性策略的方法。