1 引言
建立芯片模型是在早期進行芯片架構決策的有效方法,通過建模不僅可以對芯片的性能做出分析,還可以在硬件沒有完成之前開發(fā)軟件,不僅提高了產品成功率,而且縮短了研發(fā)周期。設計人員早期采用C/C++語言進行硬件建模。但是隨著軟硬件復雜度的提高,C/C++語言難以再滿足要求。OSCI適時推出了SystemC語言來適應新的需求。如今SystemC已經被廣泛應用于SoC軟硬件建模中。
目前大部分SystemC建模方面的文獻是作者對自己所設計芯片整體模型的描述,這種針對特定芯片設計的文獻雖然都有參考價值,但是其模型本身借鑒性有限。另一方面,構成SoC硬件的基本組件因為可重用的緣故,其模型設計具有更好的可借鑒性。這方面的研究成果相對較少,而且集中在總線建模方面,也可以看到多核設計方面的建模方法。
除了上述總線、CPU 架構外,片內或片外存儲器同樣是系統(tǒng)關鍵模塊,對系統(tǒng)性能有著至關重要的影響。文獻[6]對SystemClick框架做了擴展,從而通過存儲器模型能夠分析共享存儲器對性能的影響。文獻[7]針對多通道DRAM 做了建模,并且分析了不同的配置和使用情況對性能的影響。這兩篇文獻都對所設計的模型做了詳盡的分析,具有很好的參考價值,但是兩者的通用性欠佳。本文提出了一個可配置的通用存儲器SystemC模型。
2 SystemC
SystemC可被視作C++硬件建模和仿真的擴展庫,特別適合集成電路的建模,但它事實上可以用來描述更多的系統(tǒng)。SystemC通過確定仿真核心(simulation kernel)算法定義了處理并行事件和仿真時間的機制。SystemC還定義了模塊、端口、接口、通道等概念來組成一個復雜SoC的連接關系和層次結構。因此,它解決了標準C++語言用于復雜硬件建模時的難題。
3 存儲器的建模
3.1 存儲器模型概述
為了能幫助設計人員分析系統(tǒng)性能并選擇最合適的存儲器構造,存儲器模型需要反映出對性能造成影響的關鍵參數,即帶寬、延時和仲裁機制。而這些參數又是由存儲器的結構以及其它參數決定的。另一方面,本文希望提出一個通用的存儲器模型,因此會有更多的參數用于配置存儲器以模擬某種特定類型的存儲器特征,比如多端口SRAM。
圖1給出了所設計的存儲器模型的結構。它包括三個部分:一是模型接口;二是端口及bank可配置的存儲器;三是由讀寫通路及仲裁機制構成的存儲器控制器。接口部分采用了事務級建模,而內部模塊采用了時鐘精準的建模,這樣在保證時間精度的同時,方便了接口連接以及提高了仿真速度。
圖1 可配置存儲器模型結構
3.2 存儲器接口
基于SystemC的存儲器模型接口,由SystemC定義的接口基類派生而來。整個存儲器模型是一個SystemC模塊,由于實現了所定義的存儲器模型接口,它成為SystemC概念中的hierarchal channel。因此,該存儲器模型將如同其它SystemC定義的通道,比如FIFO,一樣作為基本組件來連接其它的模塊從而構造出SoC硬件系統(tǒng)。所設計存儲器具有如下所述事務級SystemC接口。
阻塞讀接口:該接口用來讀取給定地址的給定大小的數據,當數據沒有讀出時,調用這個接口的模塊線程將被堵塞,直到數據讀出為止。除了地址和數據,該接口還包含調用者的標志信息。
非阻塞讀接口:與阻塞讀接口不同的是,如果在調用時讀指令不能被接受,則返回失敗。否則,不等待數據返回便成功退出。這樣調用接口的模塊線程可以在等待時間做其它事情。調用者通過監(jiān)聽存儲器模型廣播的當前讀出數據多對應調用者標記來在之后讀出數據。
阻塞寫接口:該接口用來向存儲器給定地址寫入給定大小的數據。當指令或寫數據不能被存儲器模型接收時,調用的線程被堵塞直到接受為止。除了地址和數據,該接口還包含調用者的標志信息。
非阻塞寫接口:與阻塞寫接口不同的是,當指令或數據不能被接受時,返回失敗而不等待。否則返回成功。
復位接口:用于復位存儲器模型。
為了不強制要求外部提供存儲器模型需要的時鐘,存儲器模型接口中不包含時鐘輸入。模型內部有一個專門的時鐘產生線程。
3.3 存儲器實體
存儲器模型中的存儲器實體可以由多個bank組成,并構成一個子模塊。根據bank的數量和種類,該存儲器子模塊具有不同數量的只讀端口、只寫端口和讀寫端口。為了能盡可能模擬不同的存儲器類型,存儲器子模塊可配置參數如表1所示。
表1 存儲器配置參數
3.4 存儲器控制器
存儲器控制器由指令隊列、數據緩存、以及仲裁器構成。這一部分對系統(tǒng)的性能有重要影響。讀指令隊列和寫指令隊列用來分別緩存讀寫指令。當它們寫滿時,新的讀寫操作將失敗或堵塞。指令隊列的數量取決于訪問存儲器模型的模塊有幾個優(yōu)先級。相同優(yōu)先級的指令會被放到同一個隊列。讀仲裁器和寫仲裁器分別根據隊列中的讀地址和寫地址,讀寫數據緩存器的狀態(tài),以及指令優(yōu)先級來決定發(fā)送哪個指令到哪個端口。而如果讀指令和寫指令指向了相同的讀寫端口,讀寫仲裁器將再一次做出仲裁。這里的每個仲裁器除了上述功能外,具體的仲裁機制以虛函數的形式由具體的實現來決定。在該存儲器模型中實現了默認的基于優(yōu)先級的輪詢算法。存儲器控制器的配置參數如表2所示。
表2 存儲器控制器的配置參數
3.5 參數配置
存儲器模型的眾多參數需要在構造函數中配置完成。在運行階段,不能再更改配置。運行階段的配置更改將是我們下一步的研究內容,可以用于類似于文獻[8]的自演化系統(tǒng)。
4 應用實例
圖2所示為一個H.264解碼器模塊框圖。該解碼器共包括四個模塊以流水線方式工作在宏塊級別。其中熵解碼產生運動矢量,變換系數等信息。殘差恢復模塊通過反量化、反變換操作得到殘差。宏塊預測模塊進行幀內或幀間預測并和殘差一起重建出宏塊數據。去快效應模塊實現H.264去塊效應濾波。這四個模塊通過一個共享的SRAM 來交換數據。RTL設計人員根據設計指標率先完成了各模塊微架構的設計,平均解碼每個模塊所需時間在指標范圍內。
圖2 H.264解碼器使用共享存儲器在解碼模塊間交換數據
為了確定共享SRAM 引入的性能損失和確定SRAM 的設計,采用本文存儲器模型進行分析。存儲器的大部分參數已經被確定,需要決定采用幾個bank(每個bank是一個單端口SRAM)。另一方面,各模塊讀寫存儲器的時間也基本確定從而有了可靠地負載模型。通過改變存儲器模型的bank數,得到結果如圖3所示。
圖3 不同bank數所對應的單個宏塊平均解碼時間占允許時間的比例
由于bank的增加可以減少訪問存儲器的沖突,模型仿真得到的處理時間隨bank數量的增加而減少。但是可以看到bank數量對所消耗的時間影響不大,這說明各解碼模塊訪問存儲器的時間分布已經比較均勻。由于一個bank的情況已經可以滿足要求,所以最后確定bank數為1。RTL全部完成后的仿真結果所消耗的時間比模型所給出的略少一些,原因是RTL設計對訪問共享SRAM 的時間安排做了進一步細化的工作。
5 結束語
本文提出了一個通用的存儲器SystemC模型,該模型采用統(tǒng)一的事務級接口,和可配置的時鐘精準的內部控制邏輯以及存儲器構成。通過一系列的參數配置,該模型能夠幫助設計人員快速實現系統(tǒng)建模并在存儲器設計和選擇上做出合理判斷。借助其通用性,它還可以幫助保持一致性和減少重復勞動。該模型被應用于視頻解碼案例中,成功預測了共享SRAM 的bank數對性能的影響,證明了其有效性。
參考文獻:
[1] Ghosh A.System modeling with SystemC[C]∥ ASIC,2001.Proceedings.4th International Conference on.China:Shanghai,2001:18-20.
[2] Mahfuzul S M,Tran J M D.Modeling for performance:SystemC model of a communication bus in a distributed network[C]∥International Conference on Information and Communication Technology.Dhaka,2007:231-234.
[3] Srinivasan S,Li L,Ruggiero M,.Dnaka,et al.Exploring architectural solutions for energy optimizationsin bus-based system-on-chip[J].Computers &Digital Techniques,IET,2008,2(5):347-354.
[4] Chen Lin,Sun Wanzhong,Wang Zhixin,et al.A SystemC-based transaction level modeling of on-chipbus[C]∥International Conference on Computer Science and Software Engineering.China:Wuhan,2008:146-149.
[5] 奚杰,陳杰,朱玥。利用SystemC實現多核系統(tǒng)的快速建模[J].微電子學與計算機,2010,27(7):220-223.
[6] Loeb H P,Sauer C.Exploration of embedded memomemories in SoCs using SystemC-based functional performance models[C]∥Forum on Specification & DesignLanguages.Sophia Antipolis,2009:1-6.
[7] Nikara J,Aho E,Tuominen P A,et al.Performanceanalysis of multi-channel memories in mobile devices.System-on-Chip.Tampere,2009:128-131.
[8] 王曉艷,姚睿。使用SystemC設計片上自演化系統(tǒng)[J].微電子學與計算機,2011,28(6):28-31.
[9] 鐘輝捷,雷航?;赑etri網和systemC的SoC系統(tǒng)描述[J].計算機應用,2007,27(2):147-149.
0次