RSA算法的TMS320C54x DSP實現(xiàn)
關(guān)鍵詞:DSP RSA算法 公鑰密碼體制 模運算
引言
在當今的電信時代,由于采用大規(guī)模的電子計算機對數(shù)據(jù)進行處理,使得信息的傳遞大大加速,但是,也隨之出現(xiàn)了令人最為擔心的問題,就是信息的安全性。對信息進行保護的方法就是數(shù)據(jù)加密,通過對網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)和系統(tǒng)內(nèi)存儲的數(shù)據(jù)進行加密,可以大大提高網(wǎng)絡(luò)和信息的安全性。以較高的安全性而被廣泛采用的RSA公鑰密碼體制,在現(xiàn)代安全性制中占有重要地位。RSA算法由于在加密和解密過程中要進行大量的數(shù)值運算,存在難以實現(xiàn)的問題;而采用純軟件的方式實現(xiàn)RSA算法,雖然降低了解密的強度,但卻增加了運算時間。本文采用一種軟硬件相結(jié)合的方式來實現(xiàn)RSA算法。
DSP(Digital Signal Processor)芯片,即數(shù)字信號處理器,是一種特別適用于進行實時數(shù)字信號處理的微處理器。TMS320C54x系列是一種有特殊結(jié)構(gòu)的微處理器,其內(nèi)部采用程序與數(shù)據(jù)分開的哈佛結(jié)構(gòu);具有專門的硬件乘法器,廣泛采用流水線操作,使用特殊的DSP指令,可以用來快速地實現(xiàn)各種數(shù)字信號處理算法。正因為TMS320C54x系列的這些特點,比較適合RSA算法使用,實現(xiàn)對串行數(shù)據(jù)的加、解密。
1 RSA算法
RSA算法是由Rivest、Shamir與Adleman三人于1978年合作開發(fā)的,并以他們的名字命名的公開密鑰算法。其加密密鑰是公開的,而解密密鑰是保密的。它是基于一個非常簡單的數(shù)論思想:“將兩個素數(shù)乘起來是很容易的,但是分解該乘積是非常困難的”。
RSA算法的特別為利用素數(shù)(也就是質(zhì)數(shù))的因式不可分解性,選用很大的素數(shù)(一般為幾百位到幾千位),為了使政府部門與軍事部門的數(shù)據(jù)保密,大多采用幾千位以上的素數(shù)作為加密的密鑰。RSA算法的要點與難點有二:①算法主要為求模取余運算,這給此算法的應(yīng)用增添了實際的應(yīng)用難度,因為給一個幾千位的素數(shù)進行求模取余運算是很難的;②判斷一個數(shù)是否為素數(shù)也是數(shù)學界幾百年來一直討論與研究證明的難題,雖然費馬提出了著名的“費馬猜想”,但一直卻未得到過完全的證明,基于此要找一個幾千位的素數(shù)更是難上加難。
(1)RSA算法原理
RSA算法是基于數(shù)論中的同余理論。如果用m代表明文,c代表密文,E(m)代表加密運算,D(c)代表解密運算,x=y(mode z)表示x和y模z同余,則加密和解密算法簡單表示如下:
加密算法 c=E(m)=me(mod n)
解密算法 m=D(c)=cd(mod n)
其中n和密鑰e是公開的,而密鑰d是保密的。
下面討論密鑰的求?。?/P>
①選取兩個隨機大素數(shù)p和q(保密);
②設(shè)n=p×q;
③歐拉函數(shù)φ(n)=(p-1)(q-1)(保密);
④選取與φ(n)互素的正整數(shù)e,即滿足gcd(φ(n),e)=1和0<e<φ(n);
⑤計算d(保密),使?jié)M足e×d=1(mod φ(n)),即d和e相對于模φ(n)互為逆元素。
由RSA算法原理可知,RSA算法的核心是求模取余運算,其安全性是建立在大合數(shù)因子分解困難的基礎(chǔ)之上的。
(2)模運算的實現(xiàn)
RSA算法的核心操作也是最耗時的操作是模運算,所以開發(fā)一種快速指數(shù)和取模運算是解決運算速度的關(guān)鍵。通常的模運算都是利用加減法來實現(xiàn)的,因為加減法指令的執(zhí)行速度快。但對于TMS320C54x系列芯片,內(nèi)部有專用的17位×17位乘法器,使得乘法指令的執(zhí)行與加減法指令的執(zhí)行所用的時間完全相同,所以在此設(shè)計中采用乘法完成模運算。
在進行模運算時,一般先將指數(shù)e(長度為kbit)改寫成二進制數(shù)組的形式e,即
其中:ei∈{0,1},i=0,1,Λ,k-1。
這樣,在計算me(mod n)時,先做一次平方運算,然后根據(jù)ei的值,再做一次乘法運算,以此來簡化模運算的復(fù)雜性。
由于實際中的e值非常大,為了提高運算速度,可以將e進行分組后運算。設(shè)對e以四位一組(十六進制)的形式計算me(mod n),那么:
其中:ei∈{0,1,2,…,15},t=k/4;
②求出m2,m3,…,m15(mod n);
③設(shè)置變量c:=1;
④對于i=t-1,t-2,…,1,0重復(fù)計算:
c:=c2(mod n)(平方);
c:=c2(mod n)(四次方);
c:=c2(mod n)(八次方);
c:=c2(mod n)(十六次方);
e.若ei≠0,則c:=c×mei(mod n)。
⑤所得c即為所求。
由上面的模運算方法分析可知,該算法的運算所需的平方和乘法次數(shù)是最少的,因此選擇這種算法來實現(xiàn)模運算可提高運算速度。有了基本運算思路和步驟以后,就可以利用TMS320C54x DSP芯片來開發(fā)RSA算法了。
2 軟硬件的實現(xiàn)
在嵌入式應(yīng)用場合,對于大規(guī)模的乘法運算,采用單片機來實現(xiàn)顯然力不從心;而TMS320C54x DSP芯片的特點恰好滿足RSA算法的要求,是實現(xiàn)此算法的首選芯片。本課題中所選用的是德州儀器公司生產(chǎn)的TMS320C5402芯片。
(1)TMS320C5402芯片概述
TMS320C54x芯片是為實現(xiàn)低功耗、高性能而專門設(shè)計的定點DSP芯片,主要應(yīng)用在無線通信系統(tǒng)和遠程通信嵌入式系統(tǒng)中。本文所用的TMS320C5402芯片是此系列的一個典型產(chǎn)品,除了繼承老產(chǎn)品的優(yōu)點外,還增加了更多的硬件資源,該芯片的主要特點有:
①速度快,指令周期為10ns,運算能力為100MIPS;
②強大的尋址能力,1M×16位最大可尋址外部存儲空間,內(nèi)置16K×16位RAM,4K×16位ROM;
③40位的算術(shù)邏輯運算單元(ALU),包括2個獨立的40位累加器和1個40位的桶形移位寄存器;
④1個17位×17位的硬件乘法器和1個40位的專用加法器,乘法器/加法器單元可以在一個流水線狀態(tài)周期內(nèi)完成一次乘法累加(MA)運算;
⑤先進的多總線結(jié)構(gòu)(3條數(shù)據(jù)總線、1條程序總線和4條地址總線),多條數(shù)據(jù)總線可以同時讀取多個數(shù)據(jù),使得指令集的功能強,效率更高。
(2)硬件設(shè)計
在本設(shè)計中,外設(shè)提供的串行數(shù)據(jù)是標準RS232電平,經(jīng)過電平轉(zhuǎn)換后達到可以處理的TTL電平,直接與DSP芯片的異步接收發(fā)送引腳相連;DSP將接收到的數(shù)據(jù)進行加、解密處理,并存儲在外部數(shù)據(jù)存儲器中,等待中斷程序進行讀取。
電路原理框圖如圖1所示。
在本DSP系統(tǒng)中,SRAM與DSP芯片的接口構(gòu)成32K字的外部程序存儲器和16字的外部數(shù)據(jù)存儲器,其中外部程序存儲器的地址范圍是48000H~4FFFFH,外部數(shù)據(jù)存儲器的地址范圍是4000H~7FFFH;并行8位EPROM與DSP芯片的接口構(gòu)成32KB的引導(dǎo)裝載EPROM,可以使DSP系統(tǒng)成為獨立運行系統(tǒng),其地址范圍是8000H~FFFFH。
當DSP芯片工作在微計算機方式(MP/MC=0)下,復(fù)位時,外部并行8位引導(dǎo)裝程序從外部EPROM中讀取引導(dǎo)裝載表,并且裝載程序代碼到DSP片外程序存儲器中。在外部并行8位引導(dǎo)裝載模式下,可對軟件等待狀態(tài)寄存器(SWWER)和切換控制寄存器(BSCR)進行配置,使高速DSP芯片能從相對較慢的外部EPROM中讀取數(shù)據(jù),缺省的設(shè)置是7個等待狀態(tài)。
硬件的設(shè)計是最為重要的,必須嚴格分析DSP工作過程中的時序問題,而且還要考慮到指令在執(zhí)行時所消耗的時間;要考慮到該時間與外圍器件的運行速度是否匹配等諸多因素,若單個軟件設(shè)計成功而支持軟件的硬件未設(shè)計成功,也就意味著整個設(shè)計等于零。
(3)軟件設(shè)計
軟件開發(fā)過程包括:利用任何文本編輯器編寫源代碼文件,然后通過編譯、匯編和鏈接,生成DSP可執(zhí)行的COFF目標代碼,最后將生成的可執(zhí)行目標代碼通過仿真器下載到DSP目標系統(tǒng)中運行,再利用調(diào)試工具進行調(diào)試,達到設(shè)計要求。待程序調(diào)試通過后,就可以將所調(diào)試通過的程序代碼利用Hex轉(zhuǎn)換工具轉(zhuǎn)換為二進制文件,再用編程器將程序?qū)懭胪獠縀PROM中,形成獨立的DSP系統(tǒng)。
開發(fā)語言分為匯編語言與高級語言兩類。其中匯編語言編譯器的效率高,但是由于生產(chǎn)DSP芯片的廠家開發(fā)出的DSP芯片所支持的匯編語言差異較大,其指令、尋址方式差異更大,并且可讀性與可移植性不強。為克服這個缺點,廠家大都開發(fā)出支持高級語言的工具,典型的如“C語言”;而C語言的編譯器效率比不上匯編語言;特別是在處理低層硬件中就顯得蒼白無力,所以一個優(yōu)化高效的DSP應(yīng)用程序都采用高級語言與匯編語言共同完成。
結(jié)語
本文介紹了RSA算法的基本原理以及用TMS320C5402 DSP芯片的實現(xiàn)方法。DSP芯片因其特有的硬件結(jié)構(gòu)和靈活的軟件編程功能,比較適合于RSA算法的實現(xiàn)。實踐證明,以這種方式實現(xiàn)的RSA算法在速度和安全性能上都有較大提高,因此可應(yīng)用于互聯(lián)網(wǎng)和分散控制系統(tǒng)等領(lǐng)域。