FPGA豐富的邏輯資源、充沛的I/O引腳以及較低的功耗,被廣泛應(yīng)用于嵌入式系統(tǒng)和高速數(shù)據(jù)通信領(lǐng)域。現(xiàn)如今,各大FPGA生產(chǎn)廠商為方便用戶的設(shè)計和使用,提供了較多的、可利用的IP核資源,極大地減少了產(chǎn)品的開發(fā)周期和開發(fā)難度,從而使用戶得以更專注地構(gòu)思各種各樣創(chuàng)意且實用的功能,而不是把大量時間浪費在產(chǎn)品的調(diào)試和驗證中。 千兆以太網(wǎng)技術(shù)在工程上的應(yīng)用是當(dāng)前的研究熱點之一。相比于其他RS-232或RS-485等串口通信,千兆以太網(wǎng)更加普及和通用,可以直接與Internet上的其他終端相連;相比于百兆網(wǎng)絡(luò),千兆以太網(wǎng)傳輸速度更快、傳輸距離更遠,再結(jié)合UDP/IP協(xié)議棧,可以更方便地與上位機進行通信。 本文結(jié)合FPGA和千兆以太網(wǎng)靈活與快速的優(yōu)勢,設(shè)計了一個多通道并支持不同格式的數(shù)據(jù)采集系統(tǒng)。為了更好地為上位機軟件所支持,搭建了一個簡單的UDP/IP數(shù)據(jù)通道來完成數(shù)據(jù)到上位機的高速傳輸。同時,為了克服UDP這類不可靠的、面向無連接的協(xié)議帶來的數(shù)據(jù)錯誤和缺失問題,使用一塊DDR2SDRAM芯片來緩存各通道數(shù)據(jù),在應(yīng)用層制定了與上位機交互及丟包處理的通信協(xié)議,從而保證了采集數(shù)據(jù)到達上位機的可靠性。 1系統(tǒng)總體結(jié)構(gòu) 系統(tǒng)的設(shè)計目標(biāo)是為了讓不同通道、不同格式的數(shù)據(jù)都能通過同一個網(wǎng)絡(luò)通道被快速無誤地傳遞給上位機,由于設(shè)備與上位機運行狀態(tài)的不同,采集數(shù)據(jù)速率的變化,甚至網(wǎng)線質(zhì)量,使傳輸過程中的錯誤和丟包情況在所難免,所以需要有適當(dāng)?shù)臋C制和存儲器緩存來保證傳輸?shù)目煽啃浴?br /> 圖1 系統(tǒng)總體結(jié)構(gòu) 圖1所示即為本系統(tǒng)的總體結(jié)構(gòu),除了使用一塊DDR2 SDRAM芯片之外,網(wǎng)絡(luò)模型中物理層的功能由一塊PHY芯片來完成。目前一般PHY芯片均能兼容10Mbit.s-1、100Mbit.s-1、1 000 Mbit.s-13種速率的以太網(wǎng)傳輸,并向上層提供多種接口,如MII、GMII、RGMII和TBI接口等,對于上位機一側(cè)則直接是普通的RJ45網(wǎng)口插槽。物理層接收數(shù)據(jù)鏈路層的并行數(shù)據(jù),并將其轉(zhuǎn)換為原始的比特流;同時也將原始比特流轉(zhuǎn)化成并行數(shù)據(jù),提交給數(shù)據(jù)鏈路層。 2 FPGA模塊功能 FPGA模塊通過響應(yīng)上位機的指令,完成數(shù)據(jù)采集、打包、傳輸、丟包重傳等工作。所有工作的基礎(chǔ)是MAC子層、網(wǎng)絡(luò)層、傳輸層等OSI參考模型各層協(xié)議的可靠實現(xiàn),每一層都按照標(biāo)準(zhǔn)接口向上一層提供特定服務(wù),而把如何實現(xiàn)這些服務(wù)的細節(jié)對上一層加以屏蔽。 圖2 FPGA模塊結(jié)構(gòu) 圖2顯示了系統(tǒng)FPGA模塊的具體結(jié)構(gòu),以及各個子模塊之間的關(guān)系。為縮短設(shè)計周期,提高設(shè)計質(zhì)量,在模塊中分別調(diào)用了Altera公司現(xiàn)有的以太網(wǎng)控制器IP核和DDR2控制器IP核資源。 2.1 DDR2讀寫控制 若不考慮網(wǎng)絡(luò)中丟包的情況,數(shù)據(jù)一邊采集,一邊打包向上位機發(fā)送,是不需要外部存儲器來緩存的。但是在實際測試中發(fā)現(xiàn),目前普通配置的PC機無法承受千兆以太網(wǎng)的快速傳輸能力,丟包很常見,尤其是增加到多個通道時,設(shè)備向上位機的輸出能力加大,丟包率也立即隨之升高。所以,使用一片DDR2 SDRAM緩存各通道的數(shù)據(jù)是必要的。 設(shè)計中直接調(diào)用Altera公司提供的DDR2 SDRAM控制器,并選用一塊它可以驅(qū)動的芯片來提高工作效率。芯片可使用的緩存空間是要重點關(guān)注的。每個通道都要分配固定的緩存區(qū)域,所以要將有限的內(nèi)存空間作合理的劃分。如果是圖像數(shù)據(jù),單個通道至少要有緩存兩幀以上的空間。DDR2讀寫控制模塊直接調(diào)用DDR2 SDRAM控制器IP核,但由于該IP核提供給用戶端的接口使用不方便,需要按照其文檔上介紹的時序來進行突發(fā)式讀寫。 本模塊的功能主要是協(xié)調(diào)各通道采集數(shù)據(jù)的寫入和讀出。如圖3所示,寫操作時,各通道的數(shù)據(jù)首先用FPGA資源進行緩存,然后寫入控制狀態(tài)機通過輪詢的方式依次檢查各個通道已經(jīng)緩存的數(shù)據(jù)量,如果足夠一次突發(fā)寫,則將其寫入SDRAM芯片的相應(yīng)通道塊中,然后再檢查下一通道;讀操作時,讀出控制狀態(tài)機也依次檢查各個通道寫入SDRAM芯片的數(shù)據(jù)量,如果足夠一次突發(fā)讀,則將其讀出,通過網(wǎng)絡(luò)發(fā)送出去。 圖3 DDR2 讀寫控制模塊結(jié)構(gòu) 基于以上控制方式,設(shè)計對各通道的數(shù)據(jù)格式是不作限制,如圖1中所示,可以是PAL、Camera Link、VGA等各種格式的圖像或組合,只是在采集之前向上位機報告各個通道的數(shù)據(jù)信息。但需要說明的是,這些數(shù)據(jù)的帶寬總和理論上不應(yīng)超過千兆以太網(wǎng)的最大傳輸速率,這是采用輪詢方式得以成功的前提。其實,如今普通PC機的處理能力遠遠不能達到這個最大限制,當(dāng)速度到達100 Mbit.s-1時,上位機丟包就已經(jīng)很嚴(yán)重。如果是將采集的數(shù)據(jù)在上位機上顯示,最多可能只有70~80 Mbit.s-1;如果還要將數(shù)據(jù)寫入硬盤,那數(shù)據(jù)率則會更低,除了配備一塊上好的硬盤之外,還需要在上位機軟件的優(yōu)化上多作努力。 2.2以太網(wǎng)發(fā)送接收控制 本模塊的功能就是MAC子層、網(wǎng)絡(luò)層、傳輸層各層協(xié)議的具體實現(xiàn),這些子模塊作為數(shù)據(jù)傳輸?shù)耐ǖ溃枰哂幸欢ǖ木彺婧筒殄e能力,同時為了能擴展其他協(xié)議,還必須保持相互之間的獨立性。如圖4所示,硬件設(shè)備接收數(shù)據(jù)的過程就是以太網(wǎng)幀經(jīng)過每一層,去除各層的首部并核對校驗,最后獲得純粹的用戶數(shù)據(jù);發(fā)送數(shù)據(jù)的過程就是用戶數(shù)據(jù)每經(jīng)過一層,添加相應(yīng)的首部和校驗,直到組成一個完整的以太網(wǎng)幀。 1)MAC子層的功能。設(shè)計中直接調(diào)用Altera公司提供的三速以太網(wǎng)控制器IP核實現(xiàn)MAC子層的功能,該IP核提供了統(tǒng)一的寄存器接口,用戶可以通過它來配置以太網(wǎng)最大幀長、源MAC地址、目的MAC地址和PHY地址等重要信息。如圖4所示,發(fā)送數(shù)據(jù)時,MAC模塊向數(shù)據(jù)幀添加以太網(wǎng)首部,并利用CRC算法添加32位的校驗碼;接收數(shù)據(jù)時,MAC模塊同樣要進行CRC校驗,對于不正確的數(shù)據(jù)幀要予以丟棄,用戶也可以通過配置寄存器決定是否將校驗位一并送至上一層。 (2)UDP/IP協(xié)議棧的實現(xiàn)。相對于TCP協(xié)議的三次握手,UDP和IP協(xié)議面向無連接的性質(zhì)使其在硬件上可以快速實現(xiàn),至于連接的建立完全可以在應(yīng)用層實現(xiàn)。 如圖4所示,UDP和IP協(xié)議的功能在硬件上的實現(xiàn)有較多相同之處:對于上層發(fā)送的數(shù)據(jù)均需要添加相應(yīng)的首部和校驗和;對于下層接收的數(shù)據(jù),檢驗校驗和,并去除首部,然后才能送到上一層;由于首部中有該數(shù)據(jù)包的長度區(qū)域,所以無論是發(fā)送和接收,都需要將數(shù)據(jù)包全部緩存,才能確定其長度大小,相當(dāng)于一種“存儲-轉(zhuǎn)發(fā)”的機制。 當(dāng)然,UDP協(xié)議與IP協(xié)議在實現(xiàn)時也有不同的地方,主要體現(xiàn)在校驗和的計算方法上。UDP協(xié)議的校驗和是將首部和數(shù)據(jù)一起校驗,而且這個首部不僅是8 Byte的UDP首部,還包括12Byte的偽首部。在UDP層計算校驗和還用到了IP層的地址,但這違背了網(wǎng)絡(luò)分層模型的理念。IP協(xié)議的校驗和只計算IP數(shù)據(jù)包的頭部,一般情況下只有固定的20 Byte. 2.3應(yīng)用層協(xié)議處理 不同通道采集的數(shù)據(jù)按照規(guī)定的數(shù)據(jù)包長度進行打包,然后再發(fā)送到上面的以太網(wǎng)控制模塊,需要專門的模塊進行組織和調(diào)度,并添加對應(yīng)通道的標(biāo)簽。同時,網(wǎng)絡(luò)中也不只是設(shè)備到上位機方向的采集數(shù)據(jù)包,也有反方向的用于控制的命令包:首先要考慮的問題是設(shè)備從何時開始采集數(shù)據(jù),何時停止采集,這都是要上位機發(fā)送命令來控制的;其次,對于丟失包的統(tǒng)計與處理,這一部分工作稍微有些困難,但無論是設(shè)備和上位機都可以完成,顯然交給上位機處理比較適宜,然后上位機向設(shè)備發(fā)送帶丟失包序號的短數(shù)據(jù)包,設(shè)備優(yōu)先從DDR2緩存中找到該丟失的數(shù)據(jù)包,發(fā)往上位機。 系統(tǒng)中完成這些功能的模塊相當(dāng)于一個位于UDP/IP層之上的應(yīng)用層協(xié)議,而這個協(xié)議的內(nèi)容是由系統(tǒng)設(shè)計者所規(guī)定的,但必須為FPGA開發(fā)人員和上位機軟件程序開發(fā)人員所共享,這樣在不同機器上的對應(yīng)層就有了一個可以互相通信的對等體(Peer)。這樣制定應(yīng)用層協(xié)議,不但增加了系統(tǒng)相關(guān)功能的保密性,還可以由開發(fā)人員自行裁剪應(yīng)用層功能,靈活地協(xié)調(diào)軟硬件應(yīng)該負責(zé)的細節(jié),最后敲定最簡潔的實現(xiàn)方案。 3上位機軟件的功能 由于本系統(tǒng)的硬件部分實現(xiàn)了UDP/IP協(xié)議棧的內(nèi)容,上位機軟件在開發(fā)時有了較多可利用的系統(tǒng)調(diào)用,主要是Socket(套接字)原語的使用。相對于硬件開發(fā)來說,軟件開發(fā)方便實現(xiàn)一些復(fù)雜的功能和計算,所以在系統(tǒng)構(gòu)想之初就刻意將一些較難實現(xiàn)的部分交由上位機軟件來處理,主要是圖像幀間隔的識別和重傳包的統(tǒng)計。 關(guān)于數(shù)據(jù)包重傳,硬件設(shè)備在傳送各個通道的圖像時,只選取一個合適的點開始采集圖像,而不負責(zé)在數(shù)據(jù)包中添加圖像幀的開始和結(jié)束等信息,因為這樣不僅偏離了多通道圖像和數(shù)據(jù)兼容的初衷,而且給FPGA程序的實現(xiàn)增加了困難,尤其是采集的數(shù)據(jù)要進出DDR2 SDRAM緩存,如果在這些純數(shù)據(jù)中添加額外的標(biāo)志數(shù)據(jù),可能會打亂整個緩存區(qū)的布局。所以上位機只能根據(jù)接收的數(shù)據(jù)量來判斷各個圖像幀之間的間隔,然后無論顯示或存儲,都以幀為單位進行。 4系統(tǒng)設(shè)計注意事項 4.1 ARP包的響應(yīng)與抑制 上位機在向設(shè)備發(fā)送UDP數(shù)據(jù)包之前,可能會先發(fā)送一個ARP包,請求設(shè)備的MAC地址。所以在FPGA程序中要能響應(yīng)該數(shù)據(jù)包,并發(fā)送ARP回復(fù),否則設(shè)備與上位機將不能通信。得到設(shè)備的MAC地址后,上位機會暫時將其保存,建立一個ARP表項;一段時間后,ARP表老化,會再次向設(shè)備發(fā)送ARP請求。 為了能正確響應(yīng)ARP請求和回復(fù),必須要清楚ARP數(shù)據(jù)包的格式。如圖5所示,如果以太網(wǎng)幀“幀類型”區(qū)域的值為0x0806,則表示該幀后面的數(shù)據(jù)填充為一個ARP包。至于是ARP請求還是ARP回復(fù),需要根據(jù)ARP首部的操作碼來辨別:操作碼為0x0001,則是ARP請求包;操作碼為0x0002,則是ARP回復(fù)包。ARP請求包填入一個廣播幀并發(fā)向網(wǎng)絡(luò)中的所有主機,所以其以太網(wǎng)目的地址為廣播幀地址0xffffffffffff,并且由于它的目標(biāo)是請求目的主機的MAC地址,故圖中“接收方MAC地址”區(qū)域沒有確切值,可為任意6 Byte的填充;ARP回復(fù)包已經(jīng)得到了所需的MAC地址,但是要注意,此時的發(fā)送方和接收方已經(jīng)對調(diào),相應(yīng)區(qū)域的填寫也應(yīng)適當(dāng)改變。 圖4 用戶數(shù)據(jù)打包/解包示意圖 以太網(wǎng)協(xié)議規(guī)定的最短幀長為64Byte,這就要求其數(shù)據(jù)填充至少為46 Byte,如圖4所示,而圖5中的ARP字段共有28 Byte,所以無論是ARP請求還是回復(fù),均應(yīng)有18 Byte的填充數(shù)據(jù)。有些PC機會發(fā)送其他設(shè)備的ARP請求,即使此時只有一根直連線將設(shè)備與上位機相連。這時設(shè)備是不能響應(yīng)該請求的,應(yīng)當(dāng)在MAC層和IP層之間就將這樣的請求屏蔽,防止干擾正常的數(shù)據(jù)包傳輸。 圖5 ARP包格式 4.2 Jumbo幀的利弊 以太網(wǎng)標(biāo)準(zhǔn)規(guī)定的最大幀長度為1 518 Byte,這包括IP層和UDP層添加的首部,一般發(fā)送的數(shù)據(jù)包也都應(yīng)該限制在這一范圍內(nèi)。但千兆以太網(wǎng)有一種廠商標(biāo)準(zhǔn)的超長幀格式,目前還沒有獲得IEEE標(biāo)準(zhǔn)委員會的認(rèn)可,它規(guī)定的幀格式與普通以太網(wǎng)幀相同,只是其數(shù)據(jù)填充區(qū)域可以突破原有限制,整個幀長度為9 000~64 000 Byte不等,即Jumbo巨型幀。 在本系統(tǒng)中采用Jumbo幀的好處:(1)可以適當(dāng)提高網(wǎng)絡(luò)帶寬的利用率。這主要靠節(jié)省各層首部的添加得到。(2)減少操作系統(tǒng)因頻繁響應(yīng)網(wǎng)絡(luò)設(shè)備的中斷而帶來的CPU資源的過多占用。這可以說是采用Jumbo幀的主要原因,因為要處理千兆以太網(wǎng)較高的數(shù)據(jù)率,無論上位機軟件如何優(yōu)化,CPU的占用仍然很高,這時如果能減少其他地方的CPU開銷,將大幅增加軟件的處理能力。 但Jumbo幀在使用時也有一些不利的地方。首先,目前很多PC機的網(wǎng)絡(luò)適配器不支持Jumbo幀的傳輸,雖然Altera的以太網(wǎng)控制器IP核支持,但這不足以使兩個設(shè)備進行通信;其次,Jumbo幀會長時間占用網(wǎng)絡(luò)通道,這會影響那些對數(shù)據(jù)延遲敏感的設(shè)備和應(yīng)用;第三,Jumbo幀的丟包意味著嚴(yán)重的災(zāi)難,一幀相當(dāng)于十多個正常幀,這會將處理能力弱的PC機迅速引入重傳的陷阱,丟包越來越多,直到網(wǎng)絡(luò)帶寬被全部占用,導(dǎo)致上位機軟件崩潰。所以在考慮支持Jumbo幀之前,應(yīng)先充分權(quán)衡這些優(yōu)勢與不足。 5結(jié)束語 系統(tǒng)硬件設(shè)備與上位機軟件配合工作,可以較好地完成雙路彩色PAL制數(shù)據(jù)流的采集任務(wù)。通過實際測試與分析,采用Jumbo幀進行傳輸,有效地減少了軟件運行過程中的系統(tǒng)中斷數(shù),從而最大限度地降低了CPU的占用。利用搭建起來的千兆以太網(wǎng)運行環(huán)境,可以擴展類似的高速數(shù)據(jù)傳輸應(yīng)用。 |