基于FPGA的AES算法芯片設(shè)計實現(xiàn)

時間：2009-08-19 00:40:57

關(guān)鍵字： FPGA 芯片設(shè)計 AES算法 PROCESS

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]引言密碼模塊作為安全保密系統(tǒng)的重要組成部分，其核心任務(wù)就是加密數(shù)據(jù)。分組密碼算法AES以其高效率、低開銷、實現(xiàn)簡單等特點目前被廣泛應(yīng)用于密碼模塊的研制中。密碼模塊一般被設(shè)計成外接在主機串口或并口的一個硬件

引言

密碼模塊作為安全保密系統(tǒng)的重要組成部分，其核心任務(wù)就是加密數(shù)據(jù)。分組密碼算法AES以其高效率、低開銷、實現(xiàn)簡單等特點目前被廣泛應(yīng)用于密碼模塊的研制中。密碼模塊一般被設(shè)計成外接在主機串口或并口的一個硬件設(shè)備或是一塊插卡，具有速度快，低時延的特點。而從整體發(fā)展趨勢來看，嵌入式密碼模塊由于靈活，適用于多種用戶終端、通信設(shè)備和武器平臺，將會得到更加廣泛的應(yīng)用?；?strong>FPGA實現(xiàn)的嵌入式密碼模塊與以往的主流硬件實現(xiàn)方式(如DSP芯片、單片機)相比，具有低成本、高速度、微功耗、微小封裝以及保密性強等優(yōu)點，與ASIC相比具有設(shè)計靈活、成本低、周期短等優(yōu)點。另一個明顯的優(yōu)點在于：在對時間代價和空間代價的取舍上，基于FPGA實現(xiàn)的加密技術(shù)提供了多種實現(xiàn)方案，分別對時間代價和空間代價有不同的偏重，有利于在各種應(yīng)用環(huán)境中進行優(yōu)化。硬件實現(xiàn)無論是ASIC方案還是FPGA方案，數(shù)據(jù)處理速度的提高都離不開優(yōu)化技術(shù)，包括算法輪函數(shù)和設(shè)計結(jié)構(gòu)的優(yōu)化。AES算法的快速實現(xiàn)方案包括：優(yōu)化 S盒的結(jié)構(gòu)(如使用復(fù)合域、查表等方法)，列混合與密鑰加的結(jié)合，以及采用流水線技術(shù)等。表1為幾種典型的AES算法實現(xiàn)性能對比情況。

AES算法結(jié)構(gòu)

AES是一個迭代型的分組密碼，包含了輪變換對狀態(tài)的重復(fù)作用。用State表示待加密狀態(tài)，CipherKey表示初始加密密鑰，ExpandedKey表示擴展密鑰，其加密過程描述如下：

Round(State，ExpandedKey) --輪變換
{
SubByte(State)； --字節(jié)代替

表1幾種典型的AES算法實現(xiàn)性能對比

ShiftRow(State)； --行移位
MixColumn(State)； --列混合
AddRoundKey(State，ExpandedKey[i])； --密鑰加
}
AES(State，CipherKey)--主函數(shù)
{
KeyExpansion(CipherKey，ExpandedKey)； --密鑰擴展
AddRoundKey(State，ExpandedKey[0])； --模加輪密鑰
For(i=1；i FinalRound(State，ExpandedKey[Nr])； --末輪運算
}

在AES的單輪運算中包含了SubByte(字節(jié)代替)、ShiftRow(行移位)、MixColumn(列混合)、AddRoundKey(密鑰加)四個步驟。圖1所示為單輪運算的加/脫密結(jié)構(gòu)。

圖1 單輪運算的加/脫密結(jié)構(gòu)

AES算法芯片IP核的完整結(jié)構(gòu)包括：接口模塊，密鑰擴展模塊，控制模塊，加/脫密模塊。各模塊之間的統(tǒng)一調(diào)度、協(xié)調(diào)配合是芯片性能的保證。然而制約芯片吞吐率的瓶頸是加/脫密模塊的實現(xiàn)。本文在第三部分著重分析了加/脫密模塊實現(xiàn)方案。[!--empirenews.page--]

加/脫密模塊實現(xiàn)方案

對于分組密碼芯片加/脫密模塊的實現(xiàn)，有迭代結(jié)構(gòu)、輪展開結(jié)構(gòu)和并行流水線結(jié)構(gòu)等方法。迭代結(jié)構(gòu)需要n(n為加/脫密輪數(shù))個時鐘周期完成一個分組的加/ 脫密操作。這種結(jié)構(gòu)占用面積最小，速度較慢。而輪展開結(jié)構(gòu)能夠有效提高加/脫密速率，卻需要大量占用存儲單元和布線資源，因而面積最大。在設(shè)計芯片時，我們需要采用一種速度和面積的有效折衷方案，使得在滿足速率要求的前提下盡可能減少資源占用。并行流水線結(jié)構(gòu)就是這樣一種方案。

流水線技術(shù)其實質(zhì)就是在適當(dāng)?shù)牡胤郊尤爰拇嫫?，將前面的運算結(jié)果或輸入數(shù)據(jù)暫存，并在下一個時鐘到來時將寄存值作為后一級運算的輸入。

流水線處理如同生產(chǎn)裝配線那樣，將操作執(zhí)行工作量分成若干個時間上均衡的操作段，從流水線的起點連續(xù)地輸入，流水線的各操作段以重疊方式執(zhí)行。這使得操作執(zhí)行速度只與流水線輸入的速度有關(guān)，而與處理所需的時間無關(guān)。AES分組密碼在非反饋模式下，后續(xù)塊的加密與前塊的加密結(jié)果無關(guān)，即所有塊的加密可并發(fā)執(zhí)行，因而采用流水結(jié)構(gòu)能顯著提高性能。

流水線的引入可以采用輪內(nèi)流水線結(jié)構(gòu)或者輪間流水線結(jié)構(gòu)來實現(xiàn)。輪內(nèi)流水線結(jié)構(gòu)把在一個時鐘周期內(nèi)欲完成的運算劃分為若干子運算(模加運算、查表和各級移位相加運算)，采用寄存輸出模式，這種方式既可縮短延時路徑，提高時鐘頻率，又可使各子運算同時進行。這樣一來雖然速度有可能提高，但是增加了控制的復(fù)雜度同時占用大量的存儲單元，這對于FPGA實現(xiàn)來說將是很大的負(fù)擔(dān)，所以本設(shè)計采用輪間流水線結(jié)構(gòu)來實現(xiàn)。圖2為輪內(nèi)流水線結(jié)構(gòu)和輪間流水線結(jié)構(gòu)對比。以 10輪運算為例，可以按輪數(shù)(3、3、3、1)拆分為4個流水段，即：第1-3輪為第1段，第4-6輪為第2段，第7-9輪為第3段，第10輪為第4段。為了使各流水段的時間片均衡，在第4段內(nèi)部需要加入鎖存器使輸出與前3段匹配。用VHDL語言描述實現(xiàn)這個流水線式電路的代碼如下：

Proc1：process(Data_in)begin
A<=Round1(Data_in)；
Endprocess；
R1：processbegin
waituntilCLK'EventandCLK=‘1’；
A_REG<=A；
Endprocess；
Proc2：process(A_REG)begin
B<=Round2(A_REG)；
Endprocess；
R2：processbegin
waituntilCLK'EventandCLK=‘1’；
B_REG<=B；
Endprocess；
Proc3：process(B_REG)begin
C<=Round3(B_REG)；
Endprocess；
R3：processbegin
waituntilCLK'EventandCLK=‘1’；
C_REG<=C；
Endprocess；
Proc4：process(C_REG)begin
D<=FinalRound(C_REG)；
Data_out<=D；
Endprocess；

圖2 輪內(nèi)流水線結(jié)構(gòu)和輪間流水線結(jié)構(gòu)對比[!--empirenews.page--]

其中Round1-Round3、FinalRound是由組合邏輯完成的操作，都能夠在一個時鐘周期內(nèi)執(zhí)行完成。這種風(fēng)格的代碼在生成流水線電路時，還需要控制指令的配合。

圖3是拆分輪運算的流水線時空圖。圖中數(shù)字表示數(shù)據(jù)分組的序號，整個流水線操作由啟動、發(fā)起、流水線核、收尾和結(jié)束5部分組成，當(dāng)進入流水線核時的效率是最高的。

圖3 拆分輪運算的流水線時空圖

用加速比(Speedup)可以衡量采用流水結(jié)構(gòu)之后加密過程相對于非流水結(jié)構(gòu)速度的提高。計算流水線加速比的基本公式為。

設(shè)加密N個分組，10輪運算每輪的運算時間為!，則

當(dāng)N的取值無限增大時，這個比值將接近于3.33…。因而使用流水結(jié)構(gòu)數(shù)據(jù)處理速度比非流水結(jié)構(gòu)提高到3倍多。

仿真實驗和結(jié)果

圖4為加密過程時序。針對128bit明文分組和128bit初始密鑰的AES算法，在QuartusII軟件下，采用中間相遇的設(shè)計方法將頂層模塊化圖形設(shè)計與底層VHDL語言描述相結(jié)合實現(xiàn)。實驗時選用APEX20KE系列的EP20K1500EFC33-3為目標(biāo)芯片進行仿真和功能驗證。密鑰裝載完畢之后每加密輸出一個分組需3個時鐘周期，吞吐率為689.500Mbits/s。使用了3056個LUTs，81626個Memorybits，可以滿足SDH標(biāo)準(zhǔn)速率STM-4規(guī)定的622.080Mbits/s的要求。

圖4 加密過程時序

結(jié)合FPGA的結(jié)構(gòu)特點，本設(shè)計實現(xiàn)的IP核具有如下特點：接口設(shè)計靈活，外部接口的設(shè)計和定義可以根據(jù)不同加密芯片的接口設(shè)計要求現(xiàn)場改動。資源占用小，脫密電路采用與加密電路部分復(fù)用的結(jié)構(gòu)實現(xiàn)，從而節(jié)省了資源。設(shè)計支持重用，在算法實現(xiàn)頂層設(shè)計時采用了模塊化設(shè)計方法，結(jié)構(gòu)清晰，可以根據(jù)不同的功能需求進行改動，利于設(shè)計重用