基于PCIE總線的多DSP系統(tǒng)接口設(shè)計和驅(qū)動開發(fā)
摘要:開發(fā)了多DSP雷達信號處理板卡。對DSP互連、DSP與FPGA通信以及基于Xilinx FPGA的PCIE總線進行設(shè)計。系統(tǒng)可擴展性好、效率高。用DriverStudio開發(fā)了WDM總線驅(qū)動程序,具有很好的通用性和可移植性。
關(guān)鍵詞:PCIE;WDM;驅(qū)動;DSP
雷達成像信號處理的特點是運算復雜。數(shù)據(jù)量大,要求系統(tǒng)在進行快速運算的同時能進行大數(shù)據(jù)量的快速傳輸和存儲。I/O技術(shù)在高性能計算的發(fā)展過程中始終是一個十分關(guān)鍵的技術(shù)。
PCI Express總線基于串行總線高速互連,比普通并行I/O技術(shù)有著更為領(lǐng)先的帶寬優(yōu)勢,被廣泛地認為是一項革命性的總線技術(shù),其重要性可以滿足不同使用者的需求。本文將詳細討論基于PCIE總線的信號處理板卡的數(shù)據(jù)傳輸設(shè)計,主要包括DSP互連,DSP與FPGA通信,PCIE接口設(shè)計以及總線驅(qū)動程序的開發(fā)。
1 基于PCIE總線的數(shù)字信號處理機介紹
本系統(tǒng)是一個通用的基于PCIE總線的雷達成像數(shù)字處理機,板卡功能框圖如圖1所示。4片DSP之間通過高速鏈路口實現(xiàn)點對點互連,實現(xiàn)1GB/s的全雙工帶寬。同時每個DSP又分別通過鏈路口與FPGA互連,構(gòu)成一個分布式系統(tǒng)。系統(tǒng)采用4片ADI公司生產(chǎn)的TS201芯片進行主要的數(shù)據(jù)處理工作,配以高性能的Xilinx Virtex-5芯片(XC5VLX110T),實現(xiàn)對數(shù)據(jù)的高速預處理。每片DSP配備容量為256MB的SDRAM。系統(tǒng)通過FPGA芯片內(nèi)嵌的PCIEIP core實現(xiàn)與主機的通信。
[!--empirenews.page--]
2 DSP與FPGA互連接口設(shè)計
2.1 互連及數(shù)據(jù)通信方法
首先,采用DSP高速鏈路口實現(xiàn)DSP點對點連接,TS201芯片采用全雙工模式,當處理器內(nèi)核工作在500 MHz時,鏈路口最高也可工作在500 MHz,每個鏈路口的雙向吞吐率可以達到1 GB/s,實現(xiàn)了點對點的高速傳輸。任意兩片DSP之間都通過鏈路口連接,使得DSP之間傳遞數(shù)據(jù)變得靈活,使程序設(shè)計變得簡單。另外,每塊DSP通過一個鏈路口與FPGA互連,在數(shù)據(jù)傳輸不沖突的情況下,F(xiàn)PGA可以同時與多片DSP通信,實現(xiàn)FPGA和DSP的高速數(shù)據(jù)交換。
2.2 接口設(shè)計原理與實現(xiàn)
由于系統(tǒng)中DSP之間實現(xiàn)了點對點互連,接口的設(shè)計主要涉及到DSP和FPGA之間的時序電路開發(fā)。TS201有4個鏈路口,鏈路口采用全雙工模式,每個鏈路口有兩個獨立的DMA通道可以同時進行通信。每個通道用LxCLKOUTP/N,LxACKI,LxCLKINP/N和LxACKO控制數(shù)據(jù)傳輸,LxBCM PI和LxBCMP用于指示現(xiàn)行緩沖器發(fā)送是否完成。利用鏈路口傳輸數(shù)據(jù)時,數(shù)據(jù)幀的開始是由時鐘的上升沿來指示的,在時鐘上升沿和下降沿分別傳送數(shù)據(jù)。由于鏈路口具有收發(fā)兩個模塊,所以FPGA需要在內(nèi)部實現(xiàn)收發(fā)兩個模塊來與DSP的兩個模塊相對應。
依照鏈路口通信協(xié)議,F(xiàn)PGA向DSP發(fā)送數(shù)據(jù)時的鏈路口發(fā)送時鐘是由內(nèi)部鎖相環(huán)產(chǎn)生的,接收DSP傳送的數(shù)據(jù)時的接收時鐘由DSP的隨路時鐘提供。鏈路口時鐘、數(shù)據(jù)信號線均使用LVDS電平標準進行連接,ACK和BCMP信號則采用單端的方式連接至FPGA。
FPGA內(nèi)部邏輯主要包括接收/發(fā)送模塊和接收/發(fā)送緩沖。接收模塊與DSP的鏈路口發(fā)送端連接,發(fā)送模塊與DSP的接收端連接,在FPGA和DSP通信時這兩個模塊可以對數(shù)據(jù)分別進行打包和拆包處理。接收/發(fā)送緩沖則用來配合接收/發(fā)送模塊,在傳輸數(shù)據(jù)時用來緩沖數(shù)據(jù)。
FPGA與DSP之間傳輸數(shù)據(jù)時發(fā)送方先要將數(shù)據(jù)傳送給鏈路口發(fā)送模塊緩沖(一個異步FIFO),接收方控制模塊檢測到LxACKI為高并且FIFO內(nèi)至少有一個4字數(shù)據(jù)塊的數(shù)據(jù)時,雙方握手完成,啟動數(shù)據(jù)傳輸,否則繼續(xù)等待。一個數(shù)據(jù)移位控制模塊使數(shù)據(jù)按照鏈路口通信協(xié)議的標準進行排列后傳送給DDIO模塊產(chǎn)生DDR數(shù)據(jù),另一個DDIO宏單元則是用來產(chǎn)生同步的時鐘。發(fā)送模塊的仿真波形如圖2所示。
3 PCIE驅(qū)動程序開發(fā)
3.1 WDM驅(qū)動程序的開發(fā)介紹
WDM是微軟全力推出的一種設(shè)備驅(qū)動程序模型,相對于KDM(Kernel Driver Model),WDM增加了對即插即用(pnp)、電源管理等新的硬件標準的支持。
WDM的分層結(jié)構(gòu)有利于系統(tǒng)的設(shè)計、擴展和驅(qū)動程序的開發(fā)。采用DriverStudio來開發(fā)運行在Windows XP下的WDM模式PCIE設(shè)備驅(qū)動程序(用DriverWorks編寫代碼,用DriverMonitor和SoftlCE調(diào)試驅(qū)動。Drive/Works對WindowsDDK的類進行了很好的封裝,因此在開發(fā)WDM驅(qū)動程序時,DriverWorks向?qū)Мa(chǎn)生驅(qū)動框架,開發(fā)人員只需選擇合適的例程即可,因此可以在較短的時間內(nèi)開發(fā)出效率較高的驅(qū)動程序。
一個WDM驅(qū)動程序的功能模塊一般由初始化、創(chuàng)建和刪除設(shè)備、即插即用處理、訪問硬件、處理Win32 I/O及控制請求、調(diào)用其他驅(qū)動程序等組成。[!--empirenews.page--]
3.2 應用程序和驅(qū)動程序的通信方法
應用程序可以用標準的Win32API函數(shù)與驅(qū)動程序建立通信。在應用程序中首先用設(shè)備GUID接口或符號鏈接名打開設(shè)備,實際上應用程序調(diào)用了Win32API函數(shù)CreateFile。若成功打開將返回設(shè)備的有效句柄,應用程序獲得有效句柄后就可以和驅(qū)動程序交換數(shù)據(jù)。打開設(shè)備后應用程序可以用函數(shù)DevieeloControl與驅(qū)動程序通信,這個函數(shù)包括從驅(qū)動程序讀數(shù)據(jù)和寫數(shù)據(jù)。完成硬件操作后用CloseHandle函數(shù)關(guān)閉該設(shè)備。
3.3 PCI Express總線介紹
PCIE總線是Intel公司提出的第3代I/O總線。PCIE總線采用雙工串行傳輸模式,速度快,低功耗,擴展靈活,軟件層與PCI兼容,具有數(shù)據(jù)包和層協(xié)議架構(gòu)。
PCI Express協(xié)議定義了4層結(jié)構(gòu):物理層,數(shù)據(jù)鏈路層和事務(wù)處理層,軟件層。PCI Express系統(tǒng)體系結(jié)構(gòu)如圖3所示。每個層次按照協(xié)議中規(guī)定的內(nèi)容,完成相應的數(shù)據(jù)處理功能。PCIE軟件層保持與PCI總線兼容,軟件兼容包括器件的初始化、自動配置和器件的運行。事務(wù)處理層接收來自軟件層或應用層的讀寫請求,并構(gòu)造響應數(shù)據(jù)包并傳給數(shù)據(jù)鏈路層。數(shù)據(jù)鏈路層的主要作用是確保數(shù)據(jù)鏈路包在數(shù)據(jù)鏈路層上的可靠傳送。物理層負責接口和設(shè)備間的連接,它在兩個PCI Express模塊之間的鏈路層間傳輸數(shù)據(jù)包。
3.4 驅(qū)動開發(fā)實例
3.4.1 PCIE接口模塊
PCI Express接口模塊通過調(diào)用IP核技術(shù)實現(xiàn),它接口模塊的結(jié)構(gòu)如圖4所示。PCI Express通信協(xié)議以及DMA的實現(xiàn)等是在FPGA內(nèi)實現(xiàn)的,整個模塊用到了Hard IP核和DMA IP核。
Hard IP核用來處理PCI Express協(xié)議相關(guān)的事務(wù);DMAIP核用作DMA控制器;DMA控制器通過控制與DMA相關(guān)的寄存器,設(shè)定讀寫操作的地址范圍和大小,來完成DMA數(shù)據(jù)讀寫操作。DMA管理模塊控制兩個獨立的DMA通道,分別用來從主機內(nèi)存讀取數(shù)據(jù)和將數(shù)據(jù)寫入主機內(nèi)存。[!--empirenews.page--]
3.4.2 DMA模式讀寫過程
為提高主機和板卡之間的數(shù)據(jù)傳輸速率,并保證數(shù)據(jù)的不丟失,采用DMA傳輸?shù)姆绞?。DMA方式的工作原理圖5所示。
板卡的FPGA芯片中有DMA控制器。它提供了2個獨立的DMA通道用于從主機到設(shè)備和從設(shè)備到主機的數(shù)據(jù)傳輸。
DMA寫操作,即設(shè)備將數(shù)據(jù)向上傳輸?shù)街鳈C中,當數(shù)據(jù)到來的時候,它將FIFO中的數(shù)據(jù)直接寫到服務(wù)器的內(nèi)存空間,并產(chǎn)生一個DMA中斷通知驅(qū)動程序,驅(qū)動程序收到中斷后調(diào)用中斷響應函數(shù)來處理內(nèi)存空間的數(shù)據(jù)。
DMA讀操作,即主機將數(shù)據(jù)向下傳輸?shù)皆O(shè)備中,傳輸卡直接從服務(wù)器的內(nèi)存空間將數(shù)據(jù)讀取到FIFO中。服務(wù)器中用于DMA讀寫的內(nèi)存空間由驅(qū)動程序初始化DMA操作時分配,PCI Express驅(qū)動程序利用這段內(nèi)存空間直接與傳輸卡進行DMA通信。
4 結(jié)束語
開發(fā)的多DSP雷達信號處理板卡傳輸效率高、擴展靈活。用DriverStudio所開發(fā)的DMA模式PCIE驅(qū)動程序通用性好,并且驅(qū)動運行穩(wěn)定,保證了主機應用程序與硬件板卡上各DSP數(shù)據(jù)的快速存取。