美國德州儀器(TI)公司的數(shù)字信號(hào)處理器(DSP)以其處理速度快,功能強(qiáng)大,易于使用,且有開發(fā)軟件支撐等優(yōu)點(diǎn)而廣泛應(yīng)用于通信、電子、自動(dòng)控制等領(lǐng)域。一個(gè)完整的DSP系統(tǒng)應(yīng)當(dāng)由硬件和軟件兩部分組成。在硬件(主要是DSP芯片)相同時(shí),系統(tǒng)的性能將主要取決于軟件部分的效率。而在相同的硬件平臺(tái)上,不同程序員編寫的軟件效率相差很大,軟件效率已成為影響DSP系統(tǒng)性能的一個(gè)重要因素。要充分發(fā)揮D-SP芯片的性能,就必須編寫高效率的程序。一般在DSP進(jìn)行運(yùn)算時(shí),有些操作會(huì)頻繁出現(xiàn)(如卷積、FFT、FIR濾波等),完成這些操作的程序的效率直接影響整個(gè)軟件部分的效率。為此,TI公司提供了一系列庫函數(shù)(TI DSP Library,以下簡稱DSP Lib)來完成這些操作。這些庫函數(shù)既可減少程序員的工作量,又可提高程序效率,因此,在程序開發(fā)中,合理地使用這些庫函數(shù),將大大提高系統(tǒng)性能。 1 TI DSP Library簡介 1.1 TI DSP Library的特點(diǎn) DSP Lib的核心實(shí)際上是一系列經(jīng)過手工優(yōu)化的匯編程序代碼,這些代碼封裝在后綴名為.lib的文件中,可用于完成各種運(yùn)算。它們對(duì)外是不可見的。這些程序(庫函數(shù),routines)可被C程序調(diào)用。由于經(jīng)過了手工優(yōu)化,它們的效率都非常高。由于不同系列DSP芯片的指令集不同,因此,不同系列DSP芯片的DSP Lib也是不同的,如TMS320C5000的DSP LIb就不能用于TMS320C6000。但是,各個(gè)系列DSP Lib的基本組成是相同的,一個(gè)完整的DSP Lib通常由Lib文件夾、include文件夾和其它輔助文件組成。其中l(wèi)ib文件夾用于存放*.lib文件,其內(nèi)部封裝著手工優(yōu)化的匯編程序代碼,是一個(gè)DSP Lib的核心部分。有的DSP Lib還有*.src文件,這些*.src文件主要是用C語言和匯編語言編寫的程序源代碼。使用歸檔器可從中提取出這些源代碼;而include文件夾用于存放各個(gè)庫函數(shù)的頭文件,通常這些文件分為C程序頭文件和匯編程序頭文件兩部分。 1.2 TI DSP Library的下載和安裝 由于DSP Lib種類繁多,且屬可選模塊,通常的DSP開發(fā)環(huán)境(CCS,Code Composer Studio)并沒有配備DSP Lib。因此,使用一個(gè)DSP Lib之前,必須進(jìn)行DSP Lib的下載和安裝。 所謂下載,就是在TI公司網(wǎng)站W(wǎng)WW.ti.com上免費(fèi)下載各種DSP Lib;而所謂安裝,就是在DSP Lib下載完畢后,雙擊安裝文件,以將它安裝在計(jì)算機(jī)中選定的位置(默認(rèn)位置為C:\ti)。安裝之后,即可在程序開發(fā)中使用DSP Lib的庫函數(shù)。 1.3 TI DSP Library的使用 按處理數(shù)據(jù)類型的不同,TI DSP分為定點(diǎn)(fixed-point)DSP和浮點(diǎn)(floating-point)DSP。由于浮點(diǎn)DSP既有定點(diǎn)指令集,又有浮點(diǎn)指令集,因此,本文選取浮點(diǎn)DSP系列TMS320C67x的DSP Lib,并且選取了TMS320C67x DSP Library和TMS320C67x FastRTS Library兩個(gè)DSP Lib,前者主要針對(duì)數(shù)字信號(hào)處理的常用操作,后者則針對(duì)一般數(shù)學(xué)運(yùn)算的通用操作。 2 TMS320C67x DSP Library的應(yīng)用 當(dāng)DSP進(jìn)行數(shù)據(jù)處理時(shí),卷積、FFT、FIR濾波等操作頻繁出現(xiàn),故在程序開發(fā)中,使用DSP Lib來完成這些操作將大大提高整個(gè)程序的效率并簡化編程。TMS320C67x DSP Library就是這樣的一個(gè)DSP Lib,它的lib文件夾內(nèi)含庫文件dsp67x.lib和源文件dsp67x.sr、dsp67x_C.sr-c、dsp67x_sa.src。TMS320C67x DSP Library主要用于TMS320C67x系列DSP芯片的程序開發(fā),使用它可完成FFT運(yùn)算。 2.1 TMS320C67x DSP Library的使用 使用TMS320C67x DSP Library的第一步是將其核心文件“dsp67x.lib”加入到當(dāng)前工程中,相關(guān)編譯鏈接參數(shù)為“-ldsp67x.lib”;接著,將存儲(chǔ)頭文件的include目錄所在路徑添加到工程搜索路徑中,其相關(guān)編譯鏈接參數(shù)為“-i pathname”,具體操作可參考TI公司的有關(guān)文獻(xiàn)。選取該DSP Lib中的庫函數(shù)“DSPF_sp_cfftr2_dit()”可完成FFT運(yùn)算,它使用的是基2的時(shí)間抽取算法,具體形式如下: 同時(shí),該庫函數(shù)還有一個(gè)對(duì)應(yīng)的頭文件“dspf_sp_cfftr2_dit.h”,使用時(shí)可將其包含到調(diào)用該庫函數(shù)的程序中。此時(shí),該庫函數(shù)就可以像一般子程序一樣被其他程序調(diào)用,具體使用代碼如下: 為了便于比較,可使用歸檔器指令“ar6x”從該DSP Lib的源文件“dsp67x_c.src”中提取出庫函數(shù)的源代碼,以得到文件“sp_cfftr2_ dit.c”。所有歸檔器指令的命令文件都存儲(chǔ)在CCS的安裝目錄下,這里,“ar6x”的使用格式為: ar6x-x dsp67x_c.src sp_cfftr2_dit.c 從“sp_cfftr2_dit.c”中可得到庫函數(shù)“DSPF_sp_cfftr2_dit()”的C語言源代碼,相應(yīng)的C程序?yàn)椤皏oid sp_cfftr2_dit(float*x,float*w,short n)”,該程序可以像一般子程序一樣被主程序調(diào)用。源函數(shù)和庫函數(shù)的形式完全相同。實(shí)際上,庫函數(shù)就是對(duì)源函數(shù)的程序代碼進(jìn)行手工優(yōu)化的結(jié)果。 2.2 性能分析 分別使用庫函數(shù)和源函數(shù)可完成FFT運(yùn)算。并可用CCS自帶的剖析工具“Profiler”來分析兩個(gè)函數(shù)由于編程方式的不同所帶來的運(yùn)行時(shí)間上的差異。改變輸入數(shù)組的長度,可得到如表1所列的一組數(shù)據(jù)。由表1可以看出,庫函數(shù)的效率遠(yuǎn)遠(yuǎn)高于源函數(shù),其效率的提高量隨著輸入數(shù)據(jù)長度的變化而變化,最高的效率可提高40倍(40.98-1=39.98),最低仍在25倍左右,而且該DSP Lib的其他庫函數(shù)也有相近的測(cè)試結(jié)果。雖然用該DSP Lib的庫函數(shù)后,程序效率可以提高一個(gè)數(shù)量級(jí),對(duì)于時(shí)間限制較為嚴(yán)格的系統(tǒng),特別是實(shí)時(shí)系統(tǒng),這仍然是非常有用的。 庫函數(shù)和源函數(shù)相比,其效率有了很大提高,但這種提高是有代價(jià)的。它主要表現(xiàn)為通用性降低。其原因是為了最大限度的提高效率,在對(duì)代碼進(jìn)行手工優(yōu)化的過程中,引入了一些強(qiáng)假設(shè),同時(shí),使用了大量的操作合并、并行處理等簡化手段,這必然導(dǎo)致庫函數(shù)的通用性降低。例如,庫函數(shù)“DSPF_sp_cfftr2_dit()”使用時(shí)就會(huì)受到以下條件的限制: (1)輸入數(shù)組的長度必須是2的冪級(jí)數(shù),且不得小于32; (2)輸入數(shù)組x和旋轉(zhuǎn)因子數(shù)組w必須按雙字對(duì)齊方式存儲(chǔ),即數(shù)組起始地址的末3位必須是零; (3)數(shù)據(jù)的存儲(chǔ)格式必須是小端模式(Little Endian); (4)執(zhí)行期間可接收中斷,但不予響應(yīng),這可能導(dǎo)致一些實(shí)時(shí)事件得不到及時(shí)響應(yīng)。 如果使用“DSPF_sp_cfftr2_dit()”時(shí)不考慮到這些限制,就有可能導(dǎo)致程序運(yùn)行異常。因此,庫函數(shù)的效率雖然高,但不能盲目的濫用,在程序開發(fā)時(shí),必須根據(jù)實(shí)際情況在通用性和效率之間進(jìn)行折衷,以合理的使用庫函數(shù)。 3 TMS320C67x Fast RTS Library的應(yīng)用 在DSP進(jìn)行數(shù)據(jù)處理時(shí),除了一些典型的操作外,還存在大量常規(guī)的操作,如除法操作、對(duì)數(shù)運(yùn)算、三角函數(shù)等,這些操作也是很費(fèi)時(shí)的,提高這些操作的代碼效率,也能顯著提高整個(gè)軟件的效率。TMS320C67x FastRTS Library就是這樣的一個(gè)DSP Lib,它通常由Lib文件夾、include文件夾和doc文件夾組成。其中l(wèi)ib文件夾內(nèi)含庫文件fastrts67x.lib(Little Endian)、fastrts67xe.lib(Big Endian)和源文件fastrts67x.src;include文件夾內(nèi)含頭文件fastrts67x.h和recip.h;而doc文件夾內(nèi)含幫助文件。 3.1 TMS320C67x FastRTS Library的使用 TMS320C67x FastRTS Library(以下簡稱FastRTS Library)主要用于處理一些常規(guī)的操作。由于在通常情況下,CCS已經(jīng)有一個(gè)RTSLib-rary來完成這些操作(例如,“rts6700.lib”就是一個(gè)適用于TMS320C67x的RTS Library文件),因此,如果要使用FastRTS Library,就必須在編譯鏈接過程中先于“rts6700.lib”來編譯鏈接“fastrts67x.lib(或fastrts67xe.lib)”,相應(yīng)的編譯鏈接命令選項(xiàng)為: -l fastrts67x.lib - rts6700.lib或 -l fastrts67xe.lib - rts6700.lib FastRTS Library同樣需要注意頭文件的使用,它有兩個(gè)頭文件: “fastrts67x.h”和“recip.h”。如果使用FastRTS Library中的特殊函數(shù)(三角函數(shù),對(duì)數(shù)函數(shù)等),則必須包含“fastrts67x.h”;而如果使用求倒數(shù)操作,則必須包含“recip.h”。FastRTS Library的使用方式如下: 3.2 性能分析 分別使用FastRTS Library和RTS Library可完成一些常用操作,使用剖析工具可得到各個(gè)操作所需的時(shí)鐘周期個(gè)數(shù),具體如表2所列(所有的操作均處理單精度浮點(diǎn)數(shù))。對(duì)比表2中的數(shù)據(jù)可以發(fā)現(xiàn),和RTS Library相比,F(xiàn)astRTS Library大大提高了程序的效率。 4 DSP Lib的編寫 事實(shí)上,程序員并非只能被動(dòng)的使用DSP Lib。只要遵循相應(yīng)的規(guī)則,程序員也可以自己編寫一個(gè)DSP Lib。編寫一個(gè)最簡單的DSP Lib的步驟如下: (1)新建一個(gè)工程newLibrary,將其屬性設(shè)為“Library(.lib)”,圖l所示是新工程設(shè)置示意圖; (2)編寫高效率代碼文件myLibl.a(chǎn)sm、myLib2.a(chǎn)sm、myLib3.a(chǎn)sm,…… (3)將myLibl.a(chǎn)sm、myLib2.a(chǎn)sm、myLib3.a(chǎn)sm,……等文件添加到工程new Library中; (4)編譯鏈接工程new Library; 完成上面4步后,工程中就會(huì)出現(xiàn)庫文件newLibrary.lib,這樣,一個(gè)DSP Lib就制作成功了。為了使DSP Lib具有保密性,通常情況下,只需保留工程中的newLibrary.lib文件,而將其他文件,特別是源代碼文件*.a(chǎn)sm刪除或保密存放。這樣,用戶就只能使用庫文件,而無法從中得到源代碼的信息。 5 結(jié)束語 本文以TMS320C67x DSP Library和TMS320C67x FastRTS Library為例,詳細(xì)介紹了如何在程序開發(fā)中使用TI DSP Library,并分析了使用TI DSP Library所帶來的程序效率的提高。最后,還給出了編寫TI DSP Library的一個(gè)應(yīng)用實(shí)例。 |