當(dāng)前位置:首頁 > 模擬 > 模擬
[導(dǎo)讀]對Booth算法產(chǎn)生的部分積重新合理分組,采用CSA和4-2壓縮器的混合電路結(jié)構(gòu),對傳統(tǒng)的Wallace樹型乘法器進行改進,提出一種高速的樹型乘法器。

摘要:對Booth算法產(chǎn)生的部分積重新合理分組,采用CSA和4-2壓縮器的混合電路結(jié)構(gòu),對傳統(tǒng)的Wallace樹型乘法器進行改進,提出一種高速的樹型乘法器。該結(jié)構(gòu)與傳統(tǒng)Wallace樹型乘法器相比,具有更小的延時,更規(guī)整的布局和更規(guī)則的布線,使其易于VLSI實現(xiàn)。
關(guān)鍵詞:Booth算法;Wallace樹;CSA;4-2壓縮器;樹型乘法器

引言
    在微處理器芯片中,乘法器是進行數(shù)字信號處理的核心,同時也是微處理器中進行數(shù)據(jù)處理的關(guān)鍵部件。乘法器完成一次操作的周期基本上決定了微處理器的主頻。乘法器的速度和面積優(yōu)化對于整個CPU的性能來說是非常重要的。為了加快乘法器的執(zhí)行速度,減少乘法器的面積,有必要對乘法器的算法、結(jié)構(gòu)及電路的具體實現(xiàn)做深入的研究。

基4Booth算法與乘法器的一般結(jié)構(gòu)

    乘法器工作的基本原理是首先生成部分積,再將這些部分積相加得到乘積。在目前的乘法器設(shè)計中,基4Booth算法是部分積生成過程中普遍采用的算法。對于N位有符號數(shù)乘法A×B來說,常規(guī)的乘法運算會產(chǎn)生N個部分積。如果對乘數(shù)B進行基4Booth編碼,每次需考慮3位:相鄰高位、本位和相鄰低位,編碼后產(chǎn)生部分積的個數(shù)可以減少到[(N+1)/2]   ([X]取值為不大于X的整數(shù)),確定運算量0、±1A、±2A。對于2A的實現(xiàn),只需要將A左移一位。因此,對于符號數(shù)乘法而言,基4 Booth算法既方便又快捷。而對于無符號數(shù)來說,只需對其高位作0擴展,而其他處理方法相同。雖然擴展后可能導(dǎo)致部分積的個數(shù)比有符號數(shù)乘法多1,但是這種算法很好地保證了硬件上的一致性,有利于實現(xiàn)。對于32位乘法來說,結(jié)合指令集的設(shè)計,通常情況下需要相加的部分積不超過18個。

    對部分積相加,可以采用不同的加法器陣列結(jié)構(gòu)。而不同的陣列結(jié)構(gòu)將直接影響完成一次乘法所需要的時間,因此,加法器陣列結(jié)構(gòu)是決定乘法器性能的重要因素。重復(fù)陣列(Iterative Array,簡稱IA)和Wallace樹型結(jié)構(gòu)是最為典型的兩種加法器陣列結(jié)構(gòu)。IA結(jié)構(gòu)規(guī)整,易于版圖實現(xiàn),但速度最慢且面積大;理論上,Wallace樹型結(jié)構(gòu)是進行乘法操作最快的加法器陣列結(jié)構(gòu),但傳統(tǒng)的Wallace樹型結(jié)構(gòu)電路互連復(fù)雜,版圖實現(xiàn)困難。為了解決這個問題,人們推出了一些連接關(guān)系較為簡單的樹型結(jié)構(gòu),例如ZM樹和OS樹。它們都是將IA樹分為幾段,每段稱之為子樹,子樹內(nèi)部連接采用IA結(jié)構(gòu),而子樹間采用樹型連接,以此來降低連接復(fù)雜度,但是這種方法降低了部分積相加的速度。

    在對樹型結(jié)構(gòu)進行改進的同時,設(shè)計者們也嘗試了對加法陣列中基本加法單元的改進。Wallace最早提出的方案中,是以CSA(進位保留加法器)作為基本單元構(gòu)建加法陣列的。其基本方法是:通過CSA部件,以3∶2的壓縮比對部分積進行逐級壓縮,直到最后只產(chǎn)生兩個輸出為止,再通過進位傳遞加法器對產(chǎn)生的這兩個偽和與局部進位相加得出真正的結(jié)果。此后,Dadda提出了一種新的加法單元,稱為“(j,k)計數(shù)器”,它有j個輸入和k個輸出,其中j≦2k。經(jīng)過研究和實踐,人們發(fā)現(xiàn)4-2壓縮器(實際上是5-3計數(shù)器)具有較好的平衡性和對稱性,用其作為基本加法單元構(gòu)成的乘法器在總體性能上具有一定的優(yōu)勢,因此4-2壓縮器也就成為了目前乘法器中較多采用的加法單元。

    圖1中列舉了乘法器中幾種加法器陣列的結(jié)構(gòu),它們都采用4-2壓縮器作為基本加法單元來完成對18個部分積的加和。圖中每個矩形代表一組4-2壓縮器,帶箭頭的線段表示部分積與中間結(jié)果。
   
(a)IA陣列        (b)Wallace樹
   
(c)一階OS樹      (d)參考文獻[5]中的樹型結(jié)構(gòu)



圖1 對18個部分積相加所采用的加法陣列結(jié)構(gòu)

    如前所述,圖1(a)中的IA陣列,結(jié)構(gòu)最為規(guī)整,但很明顯,其延時級數(shù)大大多于其他結(jié)構(gòu)。(b)是Wallace樹結(jié)構(gòu),由于采用4-2壓縮器作為唯一的加法單元,而18不能被4整除,因此在對18個部分積的求和過程中,必然要對其中的兩個部分積做額外處理。Wallace樹采取的方法是:先將16個部分積通過三級4-2壓縮器后產(chǎn)生兩個結(jié)果,然后與剩下的兩個部分積一起再進行一級4-2壓縮。(c)中的一階OS樹結(jié)構(gòu)也采用了類似的方法,只是在處理的先后順序上有所改變。這兩種結(jié)構(gòu),都破壞了樹的對稱性,造成路徑的不等長,因此浪費了硬件資源,且增加了布局布線的復(fù)雜度。(d)是參考文獻[5]中提出的一種經(jīng)過改進的樹型結(jié)構(gòu),其求和過程是:將18個部分積分為3組,先對每組中的6個部分積求和,各產(chǎn)生兩個中間結(jié)果,再把這6個中間結(jié)果相加。由于對每組中的6個部分積求和,可以采用相同結(jié)構(gòu)的兩組4-2壓縮器,這樣就很好地降低了布局布線的復(fù)雜度。其缺點在于:用4-2壓縮器對6個中間結(jié)果進行相加的過程中,仍不能避免路徑不平衡的問題,因此,還是使關(guān)鍵路徑的延時有不必要的增加。

CSA和4-2壓縮器的電路結(jié)構(gòu)和時延分析

    既然CSA和4-2壓縮器是加法陣列中主要采用的基本單元,那么,就有必要對CSA和4-2壓縮器在電路特性方面做一下分析比較。如圖2所示,CSA的電路邏輯實際上就是一位全加器,其關(guān)鍵路徑上需要經(jīng)過兩級異或門邏輯的延時。對于4-2壓縮器,可以把它看作是兩個CSA按照圖3形式相連而構(gòu)成。


     
圖2 CSA電路結(jié)構(gòu)   

 

 圖3 由兩個CSA連接而成的4-2壓縮器電路結(jié)構(gòu)

    通過圖3所示的連接方式能夠很容易地實現(xiàn)4-2壓縮器。但這種未經(jīng)過優(yōu)化的電路結(jié)構(gòu)很可能造成關(guān)鍵路徑不必要的延長。上文已提到,4-2壓縮器實際上是由5個權(quán)1的輸入,產(chǎn)生2個權(quán)2的輸出(Cout,C)和1個權(quán)1的輸出(S)。而本文之所以稱其為4-2壓縮器而非5-3計數(shù)器,是基于這樣一個事實:將此單元作橫向排列后,加數(shù)數(shù)目可以實現(xiàn)的壓縮比為4:2?;谡嬷当恚梢栽O(shè)計出較為理想的4-2電路結(jié)構(gòu),如圖4所示,其中采用了基于2選1多路選擇器的異或門電路結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的異或門。

圖4 基于多路選擇器的4-2壓縮器電路結(jié)構(gòu)

    此外,通過平衡路徑,該結(jié)構(gòu)使橫向進位鏈不對關(guān)鍵路徑的延遲造成影響,也就是說產(chǎn)生C和S信號所需的時間不決定于Cin信號,電路關(guān)鍵路徑為3個異或門的延遲。在90nm工藝條件下,采用Mentor公司的eldoD仿真工具得到的實際電路延遲仿真數(shù)據(jù)如表1所示。由此可見,一級4-2壓縮器的最大延時約為一級CSA最大延遲的1.5倍,但完成了兩級CSA所做的相加工作。

表1 4-2壓縮器和CSA時延仿真數(shù)據(jù)

     信號
延時 P1 P2 P3 P4       信號
延時 A B C
S  (ps) 187.76 201.30 194.99 192.77  Sum(ps) 134.46 138.11 94.492
C  (ps) 185.79 183.98 187.5 195.14  Carry(ps) 118.97 111.98 100.73
(a)4-2壓縮器時延仿真數(shù)據(jù)      (b)CSA時延仿真數(shù)據(jù)

改進的Wallace樹型乘法器結(jié)構(gòu)及性能比較

    對于32位乘法來說,符號數(shù)相乘時,基4 Booth編碼形成16個編碼項,并由此產(chǎn)生16個部分積;無符號數(shù)相乘時,編碼項與部分積各多出一個。此外,在目前CPU指令集的設(shè)計中,乘加/減(C±A×B)指令已被廣泛采用。所以,在一次乘法運算中,加法陣列中需要相加的部分積最多達到18個。而部分積個數(shù)對陣列結(jié)構(gòu)的設(shè)計有著重大的影響,進而也就影響了布局布線的復(fù)雜度以及陣列的延遲級數(shù)。這一點在上文對圖1中各個陣列結(jié)構(gòu)的分析中,可以得到很好的證明。

    為了解決圖1中各結(jié)構(gòu)在對部分積求和過程中存在的樹型結(jié)構(gòu)對稱性不好、規(guī)整性差、布局布線復(fù)雜度高,以及關(guān)鍵路徑延時不必要增加等問題,本文基于傳統(tǒng)的Wallace樹型結(jié)構(gòu),對其做出了改進,提出如圖5所示的樹型陣列結(jié)構(gòu)。
 



圖5  CSA與4-2壓縮器相結(jié)合的樹型陣列結(jié)構(gòu)

    此結(jié)構(gòu)中,采用CSA和4-2壓縮器共同作為基本加法單元,對18個部分積進行壓縮。其具體過程為:先采用CSA對18個部分積做第一次壓縮,產(chǎn)生12個中間結(jié)果,再采用4-2壓縮器進行第二次壓縮,然后再分別采用CSA和4-2壓縮器對第二次壓縮產(chǎn)生的6個中間結(jié)果和隨后產(chǎn)生的4個中間結(jié)果做壓縮,得到最終的兩個偽和,送入進位傳播加法器得到最終結(jié)果。該結(jié)構(gòu)通過在第一次和第三次壓縮中采用CSA,使得最初的18個部分積和用4-2壓縮器進行第二次壓縮產(chǎn)生的6個中間結(jié)果能夠同時得到處理,使各條路徑在時延上達到平衡,相比于只采用4-2壓縮器作為基本加法單元的陣列,這就節(jié)省了不必要的等待時間。與此同時,用兩級CSA取代兩級4-2壓縮器,也使得關(guān)鍵路徑的延時有了明顯的縮短,對高速集成電路設(shè)計有著很高的實用價值。

    此外,由圖5可以看出,此結(jié)構(gòu)具有較好的對稱性和規(guī)整性,宏模塊數(shù)量少,有利于布局布線。同時,對于目前指令集設(shè)計中常用的乘法指令,該結(jié)構(gòu)對硬件的利用率也是相當(dāng)高的。概括地說,該結(jié)構(gòu)保持了傳統(tǒng)Wallace樹型結(jié)構(gòu)求和速度快的優(yōu)點,又較好地改進了原來那種由單一加法單元構(gòu)成的陣列的不足。
 
    為了比較該結(jié)構(gòu)與圖1所示各結(jié)構(gòu)陣列的面積,本文在90nm工藝下采用全定制設(shè)計方法,利用Cadence的版圖工具Virtuoso對各種情況進行了比較。另外,采用經(jīng)過4-2壓縮器級數(shù)度量關(guān)鍵路徑的時延,不考慮互連延時,再通過AT2標(biāo)準(zhǔn)做了進一步的比較,結(jié)果如表2所示。(其中由表1數(shù)據(jù)可得,1級CSA延時≈0.7級4-2壓縮器延時。

表2 各種結(jié)構(gòu)的比較

陣列結(jié)構(gòu) 面積A(μm2) 延時T(4-2級數(shù)) AT2 用Wallace樹歸一化
IA陣列 0.0362 8 2.3168 3.3
Wallace樹 0.0437 4 0.6992 1
一階OS樹 0.0402 4 0.6432 0.92
參考文獻[5]結(jié)構(gòu) 0.0414 4 0.6624 0.95
本文提出結(jié)構(gòu) 0.0418 3.4 0.4832 0.69

結(jié)語
    采用CSA與4-2壓縮器相結(jié)合的電路,在對部分積的求和過程中對硬件達到了最為高效的利用。同時,這種結(jié)構(gòu)既發(fā)揮了CSA版圖面積小的優(yōu)點,又體現(xiàn)了4-2壓縮器壓縮比高、速度快的長處,因此,與其他結(jié)構(gòu)相比,本文提出的改進結(jié)構(gòu)在面積和速度上都達到了相對理想的效果。雖然其在布局布線上有一定的復(fù)雜度,但與傳統(tǒng)的Wallace樹相比,已取得了頗為可觀的改進。目前,該結(jié)構(gòu)乘法器的版圖設(shè)計工作已基本完成,并被用于正在進行的64位高性能嵌入式CPU設(shè)計的項目中,預(yù)計于2007年3月進行流片。

參考文獻
1 Bwick G. Fast multiplication:algorithms and implementation[D]. Stanford University, 1994
2 Poornaiah, D. Algorithm for designing efficient VLSI concurrent add-multiply and add-multiply-add cells for DSP applications[J]. Electronic Letters, 2000, 36(5):399-400
3 Jessani R M, Putrino M. Comparison of Single- and Dual-Pass Multiply-Add Fused Floating - Point Units[J]. IEEE Trans Comput, 1998, 47(9):927-937
4 Sousa L, Chaves R.. A universal architecture for designing ef

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉