FIR數字濾波器的FPGA實現研究
如今,FPGA已成為數字信號處理系統的核心器件,尤其在數字通信、網絡、視頻和圖像處理等領域。現在的FPGA不僅包含查找表、寄存器、多路復用器、分布式塊存儲器,而且還嵌入專用的快速加法器、乘法器和輸入,輸出設備。FPGA具有實現高速并行運算的能力,因而成為高性能數字信號處理的理想器件。此外,與專用集成電路(ASIC)相比,FPGA具有可重復編程的優點。 根據單位脈沖響應的不同,數字濾波器主要分為有限脈沖響應(FIR)和無限脈沖響應(IIR)2大類。在同樣的設計要求下,IIR方式計算工作量較小。但難以得到線性相位響應,且系統不易穩定;FIR方式的計算工作量稍大,但在設計任意幅頻特性時,能保證嚴格的線性相位特性;由于其實現結構主要是非遞歸的,FlR濾波器可以穩定工作。FIR數字濾波器是數字多普勒接收機的重要組成部分,因此,研究FIR數字濾波器的實現技術具有重要意義。隨著FPGA技術的不斷發展,FPGA逐漸成為信號處理的主流器件。而在FPGA中,數字濾波器不同的實現方法所消耗的FPGA資源是不同的,且對濾波器的性能影響也有較大差異。 1 FIR濾波器的原理及結構 FIR濾波器存在N個抽頭的h(n),N稱為濾波器的階數,其數學表達式為: 式中,x(k)為第k時刻的采樣值,y(n)為濾波器輸出。h(k)為FIR濾波器的第k級抽頭系數。 通過對h(k)進行Z變換得到FIR的傳遞函數H(Z),其在Z域內的形式如下: 因此,根據傳遞函數H(Z)和FIR濾波器系數的對稱性,可得FIR濾波器的一般實現結構,如圖1所示。 從串行結構中可以看出,FIR濾波過程就是一個信號逐級延遲的過程,將各級延遲輸出加權累加,得到濾波輸出,其中最主要的運算是乘累加運算。FIR每完成一次濾波過程需要進行N次乘法和(N-1)次加法運算,N為濾波器的階數。所以,濾波器的運算量完全取決于N的大小,當N很大時,延遲將非常長,無法實現高速信號處理。 根據FIR數字濾波器的對稱特性,可以先進行加法運算,然后對加法運算的結果進行串行乘累加運算,從而得到改進的串行結構。與串行結構相比,改進的濾波器完成一次濾波的時鐘周期減半,乘累加次數減半,提高了處理速度,但同時要消耗更多的硬件資源。圖1(b)為Ⅳ位偶數時改進的串行結構。與串行結構相似,濾波器的運算量完全取決于N的大小,當N很大時,延遲將非常長,無法實現高速信號處理。 將串行結構展開,根據濾波器的信號流圖用多個乘法器和加法器并行實現,得到FIR濾波器的并行實現結構,如圖1(c)所示。并行濾波器的濾波速度快,一個時鐘周期內完成一次濾波,但消耗大量的FPGA資源,如乘累加器,且器件的延遲較大,工作頻率不宜太高。 FPGA具有規整的內部邏輯陣列和豐富的連線資源,特別適合用于數字信號處理。但以前FPGA一般用于系統邏輯或時序控制,很少應用在信號處理方面。其原因主要是FPGA中缺乏實現乘法運算的有效結構。隨著FPGA技術的不斷發展,查找表(LUT)技術的應用有效地解決了這個問題,使FPGA在數字信號處理方面得到了廣泛應用。 2 基于分布式算法的FIR濾波器的實現 2.1 分布式算法原理 上世紀70年代Croisie提出了分布式算法DA(Distributed Arithmetic),但由于其特別適合用FPGA實現,所以直到Xilinx公司在FPGA中使用查找表(LUT)后,DA才被廣泛應用在FPGA求乘積和中。 FIR的濾波輸出y可以表示為輸入x和系數h的內積: 由上述推導可知,分布式算法是一種以實現乘加運算為目的的運算方法。它與傳統實現乘加運算的先后順序不同。分布式算法在完成乘加功能時,是通過將各輸入數據每一對應位產生的部分積預先進行相加形成相應部分積,然后在對各部分積預先進行累加形成最終結果;而傳統算法是等到所有乘積產生之后再進行相加來完成乘加運算。 2.2 分布式FIR的實現結構 圖2為分布式FIR濾波器的直接實現結構。對于小位寬的數據,DA算法不僅速度快,而且所占用的芯片資源少。 2.3 性能優化方法 1)流水線結構法 在濾波器中間增加適當的寄存器,構成流水線結構。在并行結構實現中添加流水線結構,可以提高濾波器速度,使其工作在更高的工作頻率。對于速度固定的數據,可以通過多次復用乘累加器來節省資源。 2)查找表分隔法 在用LUT實現分布式算法時,由于LUT的規模隨著N的增加呈現指數增長,如果濾波器系數N過大,則查找表的規模十分龐大。為了減小規模,可以利用部分表計算。由于FIR濾波器是線性濾波器,因此低階濾波器輸出可以相加,由此定義一個高階濾波器的輸出。例如,把16輸入的查找表分割成4個并行的查找表。 查找表的分隔技術和流水線技術可以大大減小設計規模,同時并不會降低濾波速度。使用DA算法實現的FlR濾波器與傳統的算法相比,DA算法可以極大地減少硬件電路規模,很容易實現流水線處理,提高電路的執行速度。 2.4 3種結構實現的比較 改進串行結構、并行結構、DA結構實現的比較如下: 1)改進串行結構 ①優點:使用資源少,只需一些寄存器、乘累加器便可完成整個濾波運算;②缺點:濾波速度慢,一次濾波所需的時鐘數由濾波器的階數決定。階數較高的濾波器,濾波周期很大,無法實現高速濾波。 2)并行結構 ①優點:完成濾波的速度快,直接并行濾波器可以在一個時鐘周期內完成一次濾波;②缺點:消耗大量的乘累加器,器件延遲較大,工作頻率不可能太高。 3)DA結構 與串行結構實現相比,DA實現濾波速度較快,其濾波周期由數據寬度決定而與濾波器的階數無關;而與并行實現相比,DA實現消耗的資源較少。且容易實現流水線處理,提高電路的執行速度。 在設計中,當資源成本為主要制約時,根據速度要求,選擇串行結構實現或DA結構實現;而當速度成為主要制約時,則根據資源成本因素,選擇并行實現結構或DA結構實現。在一般的應用設計中,一般采用DA結構實現。 3 實例設計與仿真 3.1 FIR濾波器的設計 利用Matlab中的FDATool工具設計一個33階,Fs=48kHz,Fc=10.8 kHz的FIR濾波器,其幅值、相位響應見圖3。為了便于FIR濾波器的FPGA實現,減小誤差,將濾波器的系數量化取整后,在FPGA中實現采用的濾波系數為{-11,14,18,-11,-25,4,32,6,-38,-21,43,45,-47,-96,50,319,457,319,50,-96,-47,45,43,-21,-38,6,32,4,-25,-11,18,14,-11}。 3.2 FIR濾波器的FPGA實現與仿真 在Xilinx 10.1 ISE平臺中,選用Virtex-5系列的XC5VSXT50T器件,用Verilog HDL語言設計串行結構、并行結構的、以及DA結構,并在ModelSim中對3種結構實現進行仿真。設計中輸入數據的位寬設為16位,而輸入數據在運算處理前位寬擴展到17位。所用仿真激勵為單位階躍響應,時鐘周期為Tck=10 ns。ModelSim中的仿真結果如圖4所示。 圖4中依次為改進的串行實現,并行實現和DA實現的仿真結果,其濾波周期分別為180 ns,10 ns和180 ns。上述設計的改進串行結構、并行結構和DA結構分別在XC5VSX50T中實現后,所消耗的FPGA內部各種資源如表1所示。 從表l可以看出,并行實現消耗的資源最多,其次是DA實現,最小是串行實現。而從濾波速度上來看,并行濾波速度最快,1個時鐘周期便可濾波1次;而串行實現速度慢,其濾波周期取決于濾波器的階數,對17階的對稱濾波器而言,濾波一次占9個時鐘周期,濾波輸出占1個時鐘周期;相對串行實現和并行實現,DA實現的濾波周期取決于處理的數據寬度,上述設計中DA實現的濾波處理數據位寬是17位,所以濾波一次占17個時鐘周期,濾波輸出占用1個時鐘周期。 4 結束語 在實際應用中,當濾波器設計對濾波速度要求不高時,可采用串行結構或改進串行結構來實現,這樣可以選取資源較少的器件,降低設計成本;當對濾波速度有較高要求時,可以考慮采用并行或DA來實現。并行實現濾波周期為時鐘周期,速度快,但消耗的資源多,成本高;DA實現速度較快,消耗的資源較少,成本耗費較低。在數字多普勒接收機的實現過程中,根據接收機的性能要求以及所選用的FPGA器件資源,選取最優的FlR濾波器實現結構。隨著FPGA查找技術的發展,具有較快的濾波速度和消耗較少資源的DA算法在FIR數字濾波領域得到了廣泛應用。 |