0 引言 當前信號處理領域內陣列信號處理技術正在迅速發展,各種新的算法及新的處理技術不斷出現,要求信號處理系統具有快速適應各種新算法和新技術的能力,采用傳統的基于專用硬件的設計方法所開發出來的信號處理系統無法滿足這樣的要求。開發具有通用性的計算平臺,盡可能通過軟件來實現信號處理功能,成為信號處理的新趨勢,“軟件雷達”、“軟件無線電”等概念都是基于這一思想。 通過靈活的軟件編程來適應算法的變化,通過簡單的硬件擴展來適應規模的變化,使系統的靈活性大大提高,研制周期、費用大為減少。要支持這種設計思路,必須研制出組成通用計算平臺的信號處理模塊,該模塊既能滿足系統實時處理需求,又具備通用性、可擴展性。 本文提出了一種基于TMS320C6701信號處理器的高性能信號處理模塊的設計方案,設計了具有一定通用性的并行信號處理模塊,該模塊具有高速互連接口,可以根據應用系統的需求構成不同的并行系統,完成各種信號處理任務。 1 系統結構 隨著微電子技術的突飛猛進,處理器的速度不斷得以提高,但實際應用對于計算能力的需求還是遠遠超出了單個處理器可以提供的范圍,采用并行處理技術構成多處理器系統滿足需要較強計算能力的應用是一種行之有效的技術途徑。 并行處理的目的是通過采用多個處理單元同時對任務進行處理,加速整個計算的過程,從而減少任務的執行時間。整個任務可分解成一些小的任務,分別分配給并行處理系統中各個處理單元執行。一般而言,這些并行執行的任務都不能完全獨立執行,一個任務中的計算可能需要用到另一個任務中的數據,各處理單元之間存在進行數據交換的要求。因為交換數據而必須等待的時間,反映了處理單元之間的同步開銷。因此不難看出,并行處理額外增加了數據通信和同步等待等開銷。 為使任務執行時間減少增加處理單元個數成為首要手段,同時要將任務進行更細粒度的劃分以增加任務的并行度,但在增加處理單元和任務細粒度化的同時將帶來總通信量的增加,再加上同步時間和任務分配不均所造成的空等待時間開銷,增加處理單元的個數對增加系統處理能力得不償失。這使得在設計并行處理系統時必須著重考慮以下兩個方面:處理單元性能的提高以及處理單元間通信技術的改進。 1.1 處理單元的選擇 在通信、語音、圖像處理中信號的動態范圍有限,一般采用定點運算就可以滿足要求,雷達、聲納信號需要較大的數據動態范圍和數據精度,若按定點處理會發生數據上溢出或下溢出,嚴重時處理將無法進行,如果使用移位定標或用定點模擬浮點運算,程序的執行速度將大大降低,為增強計算平臺的適用性,該通用信號處理平臺使用浮點處理器。 同樣的任務量,用高性能的處理單元構成的“小”規模系統,其效率要高于用較低性能的處理單元構成的“大”規模系統。并行處理單元的性能相當重要,它不僅包括運算速度,還包括存儲器帶寬、數據通信速度等,美國TI公司的TMS320C6000系列DSP是業界最高性能的通用可編程DSP,TMS320C6701又是該系列中性能較高的浮點處理器。該款DSP完全滿足設計的通用計算平臺對信號處理單元性能的要求,因此選擇TMS320C6701作為信號處理模塊的處理單元。 1.2 通信網絡的設計 陣列信號處理必然是多個信號處理單元并行工作,子任務分配在并行處理系統的各個處理單元中,子任務間數據通信速度和同步時間等不僅取決于處理單元本身的通信速度,還取決于連接處理單元的通信互連網絡,通信鏈路豐富的復雜網絡往往能提供較高的數據通信速度,然而其設計和維護的難度要高得多。針對不同的實際應用,采用不同形式的通信網絡,可以降低通信網絡的復雜度。 在互連結構設計中,把整個并行信號處理系統的互連結構分為兩級:系統級互連結構、模塊級互連結構。 系統級互連結構主要用于模塊間的通信,該設計中系統級的控制網絡和信號處理網絡分別采用RaceWay及VME實現。模塊級互連結構主要指信號處理模塊內的網絡結構。信號處理模塊系統結構如圖1所示。 信號處理模塊內包含4個DSP,可提供4GFLOPS的峰值處理能力。模塊內采用共享總線互連結構。一般情況下,程序代碼和運算數據應存放于各DSP的片內RAM或局部存儲器中,這樣可以減少共享存儲器訪問次數,減少總線爭用,縮短存儲訪問延時。共享存儲器通常用來支持模塊內4個DSP之間交換數據,以及用來支持在模塊之間交換數據。 為了減少模塊內各個DSP爭用總線帶來的時延,提高DSP之間的通信能力,相鄰的DSP之間還通過雙向的FIFO連接,構成FIFO環。這種結構十分適合流水處理的應用,最大限度地減小了數據移動的開銷,提高了處理器間的通信速度。 流水處理以其簡單高效而被廣泛采用,但因為它只利用了任務時間上的并行性,而忽視了空間上的并行性,所以并行度不高,加速比受到限制。當流水線中某一段任務負載量大于其他段時,就會形成處理瓶頸而降低系統效率。因此,流水線往往和并發操作結合起來,即在流水線處理的基礎上,部分的利用空間并行性,稱為局部并行全局串行網絡。與之對應的是全局并行局部串行網絡,即先利用空間并行性再利用時間并行性,設計出并行工作的多條流水線。 該并行信號處理系統的信號處理模塊所采用的互連形式--共享總線和FIFO環的結構,能夠很好地適應流水處理的各種變形。 2 硬件設計 該信號處理模塊符合VME標準,采用6U雙高板結構,模塊內部硬件實現上可劃分為四級總線結構,分別是局部總線、全局總線、PCI總線以及VME總線。在局部總線上的資源有:SBRAM、SDRAM及雙向FIFO;全局總線上的資源有:PCI總線接口、SRAM、FLASH;PCI總線上的資源有:RaceWay接口、HOST?PCI的橋、PCI?VME的橋以及PCI?DSP的橋;VME總線上的資源有: VME總線接口。 2.1 存儲系統設計 信號處理模塊的存儲器空間包括:局部總線空間和全局總線空間。局部總線空間由局部控制寄存器空間、SBSRAM空間、SDRAM空間、FIFO空間、內部程序存儲器空間、內部數據存儲器空間和內部外設空間構成。全局總線空間由全局FLASH空間、全局SRAM空間、全局總線控制寄存器空間和PCI接口空間構成。 EMIF是外部存儲器和TMS320C6701片內各功能單元的接口,DSP訪問片外存儲器時必須通過EMIF。 EMIF具有很強的接口能力,其數據總線寬度為32b,可尋址空間為4GB,可以與目前幾乎所有類型的存儲器直接接口,數據吞吐能力最高可達667MB/s。EMIF支持的器件類型包括:同步突發靜態RAM(SBSRAM)、同步動態RAM(SDRAM)、異步器件(包括異步SRAM、ROM和FLASH等),異步接口速度、時序可編程,可以配合不同的器件。 EMIF處理的外總線請求有四種來源:片內程序存儲器控制器發出的取指請求,片內數據存儲器控制器發出的數據存取請求,片內DMA控制器的請求,外部共享存儲器設備的控制器發出的請求。當同時有多個部分申請外總線時,由EMIF根據設置的優先級進行仲裁,然后響應各個申請。一旦某個申請者根據優先級獲得了處理權,這一處理權會一直保留到該申請者放棄請求或者是有更高優先級的申請者提出申請,其間即便有新的申請出現,EMIF也不會受理。在新的申請開始得到處理之前,對于已經獲得處理權的前一個申請者,其尚未完成的操作部分可以優先繼續完成。 2.2 全局總線設計 模塊內全局總線可由4個DSP、PCI接口芯片中的任何一個來占用,全局總線仲裁電路的設計是該模塊設計中的一個要點。考慮到PCI接口是整個系統信息交換最重要的通道,它的利用率的高低直接決定了系統的性能,所以將其優先權定為高,將DSP的優先權定為低。DSP之間的仲裁采用輪轉優先級仲裁算法。 DSP通過異步接口空間訪問全局總線,由于TMS320C6701的異步接口空間僅能夠提供4MB的地址空間,為了克服芯片的這個限制,采用頁面的機制擴充異步接口空間,使該空間最大可訪問的空間達到2GB。把DSP的EMIF提供4MB的異步接口空間分為兩部分,低2MB(即A21=0)用于訪問全局資源,高2MB用于訪問每個DSP的局部資源。采用這種DSP異步接口空間的劃分方法簡化并加快了譯碼。當復位時每個DSP的頁面寄存器都被置為0×0000 0000,它會自動通過異步接口空間指向FLASH,實現自舉。當一個DSP獲得全局總線的訪問權后,由該DSP的頁面寄存器決定全局總線地址的高11位(GA31:GA21),全局總線地址的低位(GA20:GA2)直接由該DSP驅動,GA1和GA0由譯碼得到。 通過以下計算公式可以計算頁面值和頁內偏移量: 頁面值=(全局總線上的地址&0XFFE00000)》21;頁內偏移量=(全局總線上的地址&0X001FFFFF);軟件通過以上計算公式給出當前全局地址訪問的頁面值和頁內偏移量。頁面值決定高位地址(GLA21~GLA31),頁內偏移量決定于DSP的低位地址線(EA2~EA20),這樣就將全局總線地址映射到DSP的物理空間CE0的全局總線空間內。 2.3 調試接口 JTAG是基于IEEE 1149.1標準的一種邊界掃描測試方式。TI公司為C6000系列DSP提供了JTAG端口支持,結合配套的仿真軟件可以訪問DSP的所有資源,包括片內寄存器以及所有的存儲器,從而提供了一個實時的硬件仿真與調試環境,便于開發人員進行系統軟件調試。 該信號處理模塊提供兩種方式的JTAG調試。一種方式是使用TI的XDS510仿真器和JTAG仿真協議給信號處理模塊下載程序,在軟件開發和調試時控制程序的執行。另一種方式是使用TI的代碼編譯開發環境和Pentek的SwiftNet通信協議給信號處理模塊下載程序和進行調試。這兩種方式可通過一個選擇器進行選擇使用。 該信號處理板上有4片DSP,需要進行多處理器仿真調試,將DSP的JTAG端口和JTAG仿真器或JTAG控制器間以菊花鏈方式互連。JTAG調試接口電路如圖2所示。 3 系統軟件設計 隨著嵌入式系統應用范圍不斷擴大,功能也越來越強。對于不同的系統應用需要采用定制信號處理算法。 在實時操作系統支持下開發DSP算法,方便快捷,程序思路清晰,便于代碼調試和重用,但是目前大多數DSP實際應用中,仍然采用與早期單片機開發一樣的開發方式,用匯編語言直接在硬件層上開發。開發模式的局限,已經嚴重影響了DSP以及嵌入式系統應用的發展。 并且隨著對DSP系統性能要求的迅速提高,DSP軟件將會日益復雜,特別是開發大規模并行系統的軟件,處理機之間的通信與同步、資源管理、并行任務分配等都是相當繁重的工作。如果完全由程序員手工完成,將增加研發周期,軟件質量也難以保證。因此,需要將這些底層的工作交給系統軟件來處理,程序員的精力集中于信號處理算法的實現。 信號處理模塊主要承擔高速實時信號處理任務,使用DSP陣列。如上所述,并行DSP上使用操作系統,將會使復雜的并行程序開發變得相對容易并且效率高。 因此,可以考慮選擇系統性能較好并且開發工具齊全的COTS產品,在此基礎上進行二次開發,將并行調試技術、負載平衡技術等融合進去。 VSPWorks操作系統是Wind River公司推出的用于DSP的內存占用量小的高性能實時操作系統。VSPWorks RTOS能夠與VxWorks RTOS進行通信,這樣開發者就可以很容易設計出DSP與通用處理器組合在一起的系統。因此,在實現信號處理模塊的操作系統時,選用VSPWorks操作系統為基礎,擴充并行調試和負載平衡等功能。另外,還要考慮系統的容錯和重構等問題。 作為通用的信號處理平臺,是否受用戶歡迎,很大程度并不在于技術的先進性,而在于其開發工具是否友好,開發環境是否完備。該信號處理模塊為了方便用戶應用,提供良好的集成開發環境(IDE),在IDE中不但包括編輯、編譯、連接等一般工具,另外還針對并行系統開發的要求提供了任務加載工具、并行調試工具和負載平衡分析工具等。該開發環境在宿主機上運行,通過調試口(如RS232、JTAG)與目標系統連接。 該信號處理模塊軟件開發環境包含三個高度集成的部分:運行在宿主機和目標機上的強有力的交叉開發工具和實用程序;運行在目標機上的高性能、可裁剪的實時操作系統;連接宿主機和目標機的多種通信方式,如:以太網、串口線、仿真器等。信號處理模塊軟件開發環境如圖3所示。 4 結語 本文通過對信號處理實時性、通用性需求的深入研究,提出了基于TMS320C6701處理器的高性能通用信號處理平臺系統結構,重點論述了該平臺的通信網絡、存儲器系統、調試電路等的設計,實現了支持信號處理器的實時操作系統VSPWorks配置,完善了信號處理平臺軟件開發環境。通過把不同分辨率的合成孔徑雷達成像的計算過程映射到不同規模的信號處理模塊組成的并行信號處理系統上,處理能力、存儲容量、通信帶寬等均能滿足系統需求,證明了該信號處理平臺的通用性、可擴展性及應對大規模浮點處理的有效性。 |