SoC系統(tǒng)中實(shí)時總線模塊的設(shè)計(jì)理念與應(yīng)用

時間：2012-04-01 11:15:37

關(guān)鍵字：總線模塊 SOC系統(tǒng) CPU HB

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]SoC中CPU總線一般采用應(yīng)答機(jī)制，是非實(shí)時的，數(shù)據(jù)的處理采用中斷響應(yīng)機(jī)制以發(fā)揮效率。處理特定實(shí)時數(shù)據(jù)并沒有固定的延時與穩(wěn)定的吞吐率，因此需要設(shè)計(jì)一個模塊來處理實(shí)時數(shù)據(jù)到非實(shí)時總線之間的平滑過度問題。作者以

SoC中CPU總線一般采用應(yīng)答機(jī)制，是非實(shí)時的，數(shù)據(jù)的處理采用中斷響應(yīng)機(jī)制以發(fā)揮效率。處理特定實(shí)時數(shù)據(jù)并沒有固定的延時與穩(wěn)定的吞吐率，因此需要設(shè)計(jì)一個模塊來處理實(shí)時數(shù)據(jù)到非實(shí)時總線之間的平滑過度問題。作者以此模塊設(shè)計(jì)為例，闡述非實(shí)時總線中實(shí)時數(shù)據(jù)切換的設(shè)計(jì)理念與幾個實(shí)用技術(shù)。

在芯片設(shè)計(jì)中，芯片內(nèi)部總線的設(shè)計(jì)往往決定了芯片的性能、功耗與各模塊設(shè)計(jì)的復(fù)雜度。我們設(shè)計(jì)總線往往會依據(jù)兩方面的原則：一是芯片設(shè)計(jì)流程其內(nèi)在的需求，二是所針對的應(yīng)用對交換寬帶、延時、效率、靈活性的需求。

針對芯片總線設(shè)計(jì)流程內(nèi)在的需求，高效總線結(jié)構(gòu)設(shè)計(jì)通常遵循的基本原則包括：同步設(shè)計(jì)、可綜合、無三態(tài)信號、低延時、單觸發(fā)延、支持多主控及總線仲裁(支持DMA及多CPU核)、高時鐘頻率獨(dú)立性、支持突發(fā)(高效率)和低門數(shù)。遵循這些基本原則可以幫助我們規(guī)避很多設(shè)計(jì)上的風(fēng)險(xiǎn)，提高總線效率與IP復(fù)用度。當(dāng)然，實(shí)際上述有些原則如“三態(tài)總線”，可以而且應(yīng)當(dāng)在某些應(yīng)用中使用，只是不建議芯片及設(shè)計(jì)工程師輕易地突破這些規(guī)范，增加風(fēng)險(xiǎn)。南山之橋微電子公司在高端芯片設(shè)計(jì)中使用了三態(tài)總線技術(shù)來解決超寬總線的布線聚集與時序匹配問題。

應(yīng)用的需求往往會決定總線的形式，如SoC芯片中往往會采用嵌入式CPU的總線結(jié)構(gòu)。反過來說，我們選用哪一款CPU，除了成本、性能、功耗、快速精確的時序仿真模型、編譯環(huán)境和可用IP外，還有重要的一點(diǎn)就是其總線設(shè)計(jì)是否簡單、高效與有利于發(fā)揮其它設(shè)計(jì)模塊的效率。

圖1：幀結(jié)構(gòu)TDM形式時序圖。

以現(xiàn)在較流行的ARM處理器來說，采用AMBA總線標(biāo)準(zhǔn)，其中高速芯片通常采用的AHB總線有以下幾個特質(zhì)：流水線式、非三態(tài)總線、支持多主控、總線仲裁與集中地址譯碼、應(yīng)答響應(yīng)機(jī)制(非實(shí)時)、支持突發(fā)。

總之，AHB總線適宜于發(fā)揮CPU的效率，符合高效總線設(shè)計(jì)的原則，但是其本身也有總線位寬限制(主要是指令集位寬)與SPLIT(切分)選項(xiàng)支持的復(fù)雜度。在筆者參與的設(shè)計(jì)中有一半以上不支持SPLIT選項(xiàng)以降低設(shè)計(jì)與驗(yàn)證開銷，限于篇幅在此不展開闡述。最主要的問題是SoC中CPU總線一般采用應(yīng)答機(jī)制，也就是非實(shí)時的，數(shù)據(jù)的處理采用中斷響應(yīng)機(jī)制以發(fā)揮效率。處理特定實(shí)時數(shù)據(jù)并沒有固定的延時與穩(wěn)定的吞吐率，那么就需要設(shè)計(jì)一個模塊來處理實(shí)時數(shù)據(jù)到非實(shí)時總線之間的平滑過度問題。筆者以此模塊設(shè)計(jì)為例，闡述非實(shí)時總線中實(shí)時數(shù)據(jù)切換的設(shè)計(jì)理念與幾個實(shí)用技術(shù)。例子中實(shí)時數(shù)據(jù)傳遞采用TDM總線形式(Time Division Multiplexed，時分復(fù)用)，我們稱此模式為TDM模塊。

TDM模塊設(shè)計(jì)

TDM模塊一端的界面是多路音頻信號的輸入與輸出，另一端是AHB總線，音頻數(shù)據(jù)的輸入/輸出，通常采用幀結(jié)構(gòu)TDM形式(見圖1)。其中，sp_io_xclk代表音頻數(shù)據(jù)采樣時鐘，sp_io_xfs代表幀同步頭，下面兩行分別是輸出與輸入數(shù)據(jù)?？梢姡@是一個含幀格式的多通道時分實(shí)時數(shù)據(jù)傳輸格式。關(guān)于AMBA總線，有大量介紹資料，此處不贅述。

在這個模塊的設(shè)計(jì)中，我們考慮了以下幾個原則：平滑匹配數(shù)據(jù)傳輸速度、低延時與低資源占用(邏輯與存儲資源)、高效使用AHB總線寬帶、提高CPU處理效率、可靠性與錯誤處理、可控性與可觀性。最基本的思路是：采用FIFO(先入先出)技術(shù)暨隊(duì)列來緩沖數(shù)據(jù)傳輸，同時要盡量少緩存數(shù)據(jù)在隊(duì)列中，以滿足低延時與低資源的占用；同時采用AHB burst模式提高總線利用帶寬；最后，還要提供寄存器讀寫來控制傳輸參數(shù)與狀態(tài)存儲，采用AHB從控模式(Slave)。初步的設(shè)計(jì)結(jié)構(gòu)如圖2。

DMA技術(shù)的使用時機(jī)

在這個初步設(shè)計(jì)中，緩存隊(duì)列的長度計(jì)算主要取決于AHB burst的速度與頻率。要少緩存數(shù)據(jù)，就要頻繁進(jìn)行AHB傳遞，也就是頻繁中斷CPU，這降低了CPU的處理效率。

圖2：TDM模塊的初步設(shè)計(jì)結(jié)構(gòu)。

這看起來是無解的矛盾，我們可以采用DMA(Direct Memory Access，直接存儲讀寫)技術(shù)解決。一般SoC芯片都有外接DDR/SDRAM作為最終的數(shù)據(jù)與程序緩存，TDM模塊可以直接向DRAM傳輸實(shí)時數(shù)據(jù)，而不用頻繁地中斷CPU，實(shí)質(zhì)上是把片內(nèi)緩存的需求轉(zhuǎn)移到了片外(假設(shè)總線帶寬足夠)，既降低了隊(duì)列長度又降低了中斷CPU的頻率，從而解決了這一對矛盾。

DMA技術(shù)實(shí)質(zhì)上也是模塊主動掌握總線主動權(quán)，要求采用AHB總線主控模式，最終框架結(jié)構(gòu)會變成圖3所示。

延時與DMA應(yīng)用的矛盾

細(xì)心的讀者會發(fā)現(xiàn)DMA的采用增加了處理延時，這不是與我們的原則矛盾嗎？這里牽涉到對嵌入式CPU中音頻處理算法的理解，大多數(shù)是音頻壓縮算法，一般都要求有一定的音頻片斷長度以保障壓縮率與減少CPU中RTOS的調(diào)度開銷。另外一些音頻處理程序如回響消減DSP算法，經(jīng)常采用64拍有限濾波器處理大于16ms的回響拖尾。另一些高度壓縮算法(如以有限激勵參數(shù)模型為基礎(chǔ)的算法)要求對更長的音頻片斷做處理。所以從算法的角度，SoC系統(tǒng)的音頻處理延時理論下限為多算法處理單元的最大值。我們只要保證DMA的傳輸數(shù)據(jù)延時小于這個下限就可以了，這樣就充分利用了SoC系統(tǒng)的最小延時，進(jìn)而計(jì)算DMA片斷的長度也有了依據(jù)。

回到隊(duì)列長度的計(jì)算上，我們現(xiàn)在只需要考慮TDM模塊得到AHB總線使用權(quán)之間的間隙與TDM數(shù)據(jù)輸入的速度差的最壞值就可以了。

圖3：最終框架結(jié)構(gòu)圖。

隊(duì)列深度＝最長AHB總線獲得間隔×TDM輸入速率

AHB總線輪詢(poll)間隙取決于總線上有幾個主控模式模塊與仲裁的優(yōu)先級策略。一般建議實(shí)時模塊享有較高優(yōu)先級，當(dāng)然隨之而來的要求是總線申請的頻度不能太高。平衡這一對矛盾的解決辦法超越本文論述的范疇，讀者可以從“固定權(quán)重加優(yōu)先級競爭”的仲裁機(jī)制入手來設(shè)計(jì)AHB總線仲裁器。

動態(tài)切換時機(jī)與影子寄存器的使用

在實(shí)際應(yīng)用中，我們常常發(fā)現(xiàn)幀格式中很多時分信道并沒有音頻數(shù)據(jù)，這時就要采用時分掩碼來屏蔽這些信道以阻止無效數(shù)據(jù)占用帶寬。問題是時分信通中是否有數(shù)據(jù)是動態(tài)變化的，動態(tài)變化的數(shù)據(jù)要求時分掩碼參數(shù)也要動態(tài)分配。但是怎么切換呢？這里采用“影子寄存器”技術(shù)，原理是兩套寄存器，一套參數(shù)應(yīng)用于當(dāng)前幀，另一套應(yīng)用于下一幀。利用幀同步頭的一個時鐘周期實(shí)時切換。而SoC中的CPU只看到一套寄存器地址，同時配置行為本身放寬了實(shí)時要求的限制，實(shí)時切換由TDM模塊完成，具體圖形見圖4。

錯誤的處理--最后一根救命稻草

如大家深知，芯片設(shè)計(jì)是沒有下一次機(jī)會的，那么錯誤的處理就成為了“救命的稻草”。假設(shè)TDM模塊很久沒有得到總線的控制，出現(xiàn)underrun(速率過低)與overrun(速率過高)情況。要采用隊(duì)列中“high－watermark(高水線)”與“low－watermark(低水線)”技術(shù)，在隊(duì)列接近滿與空狀態(tài)發(fā)生前提前預(yù)警。預(yù)警通常反映了芯片系統(tǒng)中的一些設(shè)計(jì)問題與當(dāng)時電壓波動、干擾、局部高溫等瞬間問題，這時預(yù)警信號通常用最高/次高優(yōu)先級中斷發(fā)生。ARM CPU本身支持高優(yōu)先級中斷，而我們的隊(duì)列長度計(jì)算現(xiàn)在要重新計(jì)算，加上高優(yōu)先級處理這一段時間，具體的響應(yīng)時鐘周期，讀者請查閱相應(yīng)CPU手冊，這也是評價嵌入式CPU與實(shí)時操作系統(tǒng)(RTOS)的一項(xiàng)指標(biāo)。

圖4：由TDM模塊實(shí)現(xiàn)兩套寄存器的動態(tài)切換時序圖。

隊(duì)列深度＝最長AHB總線獲得間隔×TDM輸入速率＋ARM最長中斷響應(yīng)時間×TDM輸入速率

本文小結(jié)

我們在TDM模塊簡要設(shè)計(jì)中，闡述了結(jié)合各種基本技術(shù)，如從緩存隊(duì)列到DMA到影子寄存器到動態(tài)分配到watermark與利用DSP算法特性，AHB總線特性、幀同步特性以及RTOS特性解決非實(shí)時與實(shí)時交換、CPU效率與資源占用、延時與DMA配置與動態(tài)切換的矛盾，追求最優(yōu)解決方案的過程與設(shè)計(jì)思路。

本文并沒有給出最初方案的隊(duì)列計(jì)算公式，是因?yàn)橐紤]的因素過多，從另一個側(cè)面反映了它不是最優(yōu)方案。好的設(shè)計(jì)應(yīng)該是把復(fù)雜的需求簡單化、模塊化，當(dāng)然實(shí)際設(shè)計(jì)中比這種簡化設(shè)計(jì)要復(fù)雜，例如還要解決實(shí)時數(shù)據(jù)傳輸中雙方時鐘不同步等問題。但讀者只要掌握了基本思路與技術(shù)，理解應(yīng)用特性、CPU特性及RTOS特性與算法，就可舉一反三，做出最優(yōu)的設(shè)計(jì)。