“今天,FPGA越來越多地應用在多種DSP中。我們預計這一趨勢在未來幾年會更加明顯。”美國調查機構Berkeley設計技術公司做了上述預測。以Xilinx和Altera為主的兩大FPGA廠商多年前就涉足了DSP應用領域,近一、兩年,隨著3G通信、視頻成像等領域的發展,FPGA for DSP(FPGA的DSP)再次成為了熱點。 為什么會用FPGA做DSP?Xilinx中國區運營總經理吳曉東從DSP的概念上進行了分析:DSP表示數字信號處理器,也可以表示為數字信號處理—并不代表某一種芯片。實際上,數字信號處理有很多種不同的解決方法,可以用普通的數字信號處理器、MCU(微控制器)等實現,同樣,FPGA也可以做數字信號處理。當數字信號處理速度不斷提高時,FPGA的應用日益凸顯。即FPGA for DSP與DSP互為補充。 Altera亞太區市場渠道工程師王冬剛先生更進一步,甚至樂觀地預測,兩者不僅互為補充,FPGA可能會對當前的高端DSP形成競爭。他提出:傳統DSP正在面臨性能、功耗和面市時間的挑戰,特別是以下應用:下一代無線通信系統,高端消費類電子,多通道視頻系統。用FPGA實現DSP有兩大趨勢:其一,作為傳統DSP協處理,滿足系統設備對DSP超高性能的要求;其二,直接取代傳統DSP,滿足系統對功耗,成本和面市時間的超額要求。 圖1 不斷發展的DSP處理需求 FPGA做數字處理的特點是什么?對于普通的DSP,數字信號處理主要用一個單元,傳統的DSP處理器是一個高性能的數字處理器,里面包括一個高性能的單元可以運行到幾個GHz的速度,但是它僅僅是一個單元,當你做比較復雜的運算就可能來回循環幾百次才可以做完這個運算(圖2下),因此它的速度反而并不很快。 圖2 為何FPGA用于DSP FPGA是一個天生的并行處理結構,FPGA里包含了有幾百個單元,例如Xilinx Virtex-5 SXT是550MHz,但可以在一個單元之內迅速把這個復雜的運算一次完成(圖2上),所以FPGA的性能實際上是遠遠高于傳統的DSP(圖3)。 圖3 DSP性能差距 根據令人信服的獨立第三方benchmark表明: Altera的器件具有10x/美元的DSP性能。應用FPGA協處理器的系統架構可以卸載傳統DSP的工作負載,并且有效執行復雜的數學計算算法,提升DSP系統級效能。 那么,用于DSP(數字信號處理)功能的FGPA與傳統的DSP(數字信號處理器)之間是什么關系?FPGA廠商認為:傳統的DSP是可編程的DSP,實際上是做信號處理理想的方案;但是隨著目前運算的越來越復雜,標準的變化,對于高清、多通道、實時要求越來越高,所以在應用他們方法處理過程中有一個性能空白的地方,而這個地方越來越多的用戶在用FPGA實施處理,所以可以認為FPGA和DSP是互為補充的,尤其體現在邏輯的復用和合并方面。 邏輯的復用和合并需要新的外設和不同帶寬總線實現的時候,這時用FPGA實現數字信號處理給工程師很大的靈活性,同時FPGA并行處理的能力強大,可幫助DSP做很多性能加速,以解決超負載的問題。這方面,FPGA廠商與TI有一種共識,雙方在很多方面是互為補充,共同給客戶提供一個更好的解決方案。 圖4 高性能DSP FPGA的DSP的演進是這樣的:把邏輯固化編程為一個固化的乘法器,然后把它提升更高的階段,變成一個乘法累加單元(MAC)。為什么這樣呢?因為數字信號處理并不是簡單的乘法,在做數字信號處理的時候,會碰到很多乘和乘累加,還有比較、計數和矩陣運算等,如果這些都通過乘法器來做的話,需要信號處理的專家和熟悉FPGA的專家才可以做到。 FPGA的DSP的另一個優勢是,可以保證能夠運行在250MHz以上,上限沒有給出,這取決于用戶,對一些有經驗的用戶可以運行到300MHz以上。但是對一個DSP設計人員,由于對FPGA不是很熟悉,也可以輕易運行到250MHz。 Xilinx 8款產品 Xilinx目前有8款FPGA的DSP。其中Sparten-3A DSP為低端產品,今年4月16日剛剛發布。高端的Virtex-DSP分為兩個產品線:Virtex-4 SX,采用65nm工藝的Virtex-5 SXT。 很多DSP工程師非常關心DSP的性能夠不夠高?所以Xilinx的產品從21最多到352個GMAC/s(千兆乘加/秒),以提供不同范圍的性能,同時也增大在存儲器方面的帶寬。因此最低速產品可以運行到250MHz,高速產品運行到550MHz;MAC單元從84到640。 Altera的產品線 高密度Stratix III器件拓展FPGA的DSP性能。嵌入式DSP模塊運行在550Hz,這些器件可達到每秒492千兆乘加(GMAC)的性能,并結合良好的邏輯結構與速度優化的互連。 低成本Cyclone III FPGA所提供的好處包括DSP性能、靈活性和更快的面市時間。廉價的Cyclone III ECP3C5擁有足夠的嵌入式乘法器和邏輯資源,可以在1080p高清晰度視頻上進行實時7×7像素過濾。Cyclone III是對成本敏感DSP應用的正確選擇。 對于量大的應用, Stratix II器件可以引腳完全兼容地移植到HardCopy II結構化ASIC,從而保證客戶的設計功能沒有任何改變。Altera的新一代結構化ASIC芯片,邏輯相當于多達220萬ASIC門,DSP模塊相當于額外的140萬門,還有集成超過8 Mbits的嵌入式存儲器。 |