1 引 言 MP3是目前世界上流行的音頻格式之一,采用MPEG-1標準的Audio LayerⅢ壓縮編碼格式,具有高壓縮率和保真度。MP3的解碼功能大多以專用解碼芯片的形式應用于多種消費類電子產品中。采用軟解碼的方式實現MP3實時播放功能可以充分利用硬件資源,節省芯片面積,有利于降低設計成本,同時軟件方式可移植性好,解碼質量可通過軟件參數設定,具有更大的靈活性,便于系統升級。隨著主流嵌入式微處理器ARM的處理能力越來越強,這種實現方式也已經成為眾多嵌入式設計公司研究的焦點。 與專用解碼芯片相比,采用軟件方式實現MP3實時解碼的瓶頸在于解碼效率。在多任務嵌入式系統中,單個任務的執行效率以及任務間的調度方式將直接影響整個系統在一定硬件資源條件下的實時響應速度。因此,在多任務嵌入式系統中采用軟解碼方式實現MP3實時播放,必須通過優化算法提高解碼效率,在保證實時性的基礎上降低對硬件資源的要求。 2 設計思想 MP3解碼需要經過大量的數據處理。首先對MP3數據流進行幀同步并解出頭信息和邊信息供解碼主數據使用,之后對主數據依次進行霍夫曼解碼、反量化、IMDCT以及子帶合成濾波,最終輸出PCM碼流。整個解碼過程如圖1所示。對定點化開源解碼程序各模塊執行時間進行測試,找出關鍵耗時模塊并對其采用改進型快速算法;在保證一定音質的前提下,根據解碼運算特征降低運算精度,從而在基于ARM926EJ-S處理器開發平臺上實現對MP3音樂(碼率為192 kb/s,采樣率為44.1 kHz,立體聲編碼模式)的解碼;在實時播放方面,提出雙Buffer輪換DMA傳送的設計方案,為高效任務調度的實現提供有利條件。 3 系統實現過程 3.1 硬件系統 本文采用的嵌入式系統是以ARM926EJ-S處理器為核心的SoC開發平臺,最高運行主頻為190 MHz,支持ARMv5T指令集,存儲器包括SDRAM和NAND FLASHROM,外圍設備包括DMA控制器、中斷控制器、USB控制器、UART、控制器、I2S控制器以及定時/計數器。整個硬件系統的架構如圖2所示。 MP3文件和程序代碼通過USB線下載并分別存放入NAND FLASH ROM和SDRAM;解碼MP3文件得到的PCM碼流送入I2S控制器輸出;UART控制器可實現串口打印輸出調試信息,跟蹤程序運行狀態;定時/計數器用于測試解碼時間,對解碼各個模塊進行耗時分析。 3.2 代碼移植 搭建好硬件平臺后,對各硬件模塊進行初始化,并加載文件系統,完成軟件平臺的搭建。將開源的MP3解碼程序代碼移植到軟件平臺上,這一過程主要是針對平臺的文件系統,對文件讀寫函數進行替換,并將屏幕打印替換為串口打印操作。移植后的代碼實現對MP3文件進行解碼,并輸出為PCM碼流文件。利用CoolEdit對輸出PCM碼流文件進行測試播放,輸出音質良好。 3.3 耗時分析 成功移植后,對代碼進行耗時分析,找出耗時最大的功能模塊,確定重點優化對象。該系統采用硬件定時/計數器作為測試工具,將計數器的計數頻率調配為1 MHz,可實現1μs的測試精度。在ARM工作主頻為150 MHz的條件下,對100幀MP3數據的解碼過程進行耗時測試,測試結果如表1所示。根據表1測試數據可知,子帶合成濾波占了整個解碼時間的60%以上,是決定解碼速度的最關鍵模塊;其次是長塊IMDCT運算,占了整個解碼時間的10%以上。因此,子帶合成濾波與長塊IMDCT成為優化重點。 3.4 解碼算法分析與優化 3.4.1 子帶合成濾波算法優化 子帶合成濾波是MP3解碼過程中最耗時的關鍵流程,該解碼系統采用Konstantinos Konstantinides提出的改進型算法對其進行優化。子帶合成濾波的標準算法涉及從32值變換到64值的矩陣運算,Konstantinos Konstantinides提出的改進型算法將矩陣運算進行一系列變化,最終歸結于32點DCT變換,而DCT變換有類似于FFT的快速算法(FCT),從而加速了整個子帶合成濾波過程。由DCT變換到矩陣運算的轉換過程如圖3所示,其中S和V分別為矩陣運算的32點輸入序列和64點輸出序列,A,B均為16點矢量。 3.4.2 IMDCT算法優化 IMDCT采用Szu-Wei Lee提出的快速算法進行優化,該算法充分利用余弦函數的對稱性,將N點IMDCT運算經過一系列變形,最終轉化為N/4點的SDCT-Ⅱ運算,其轉化流程如圖4所示。對短塊IMDCT使用該算法并沒有帶來較大的速度改善,故只對長塊應用。相比于直接運算的648次乘法和612次加法,優化后的長塊。IM-DCT運算量下降為43次乘法和115次加法。 3.4.3 低精度乘法 在ARM指令集中的乘法指令有2類:32 b×32 b→64 b長乘法指令(MULL,MLAL)和32 b×32 b→32 b短乘法指令(MUL,MLA),前者的指令周期為3+m,而后者為2+m。由于解碼過程中,尤其是子帶合成濾波過程,乘法指令使用非常頻繁,如果能夠使用短乘法指令進行乘法運算,將會大大提高系統性能。 該系統的定點運算過程采用Q28定點表示法,若采用長乘法指令運算,得到的64位結果中有效位只有第28~59位,低28位和高4位都是無用的,需要通過移位去除。根據解碼過程中運算系數的定點表示特征,可以在乘法運算前預先對操作數進行移位,以便使編譯器采用短乘法指令進行運算。在子帶合成濾波過程中,定點化濾波系數的低12位均為0。根據這一特征,可將濾波系數預先右移14位再進行乘法運算,這一過程僅損失2位精度。另外,在子帶濾波快速算法的DCT運算結果參加乘法運算前,預先右移12位,最后將子帶濾波的輸出結果右移2位。經過3次右移操作后的輸出結果共降低16位精度,對于16位PCM輸出剛好滿足精度要求。 經過以上一系列優化處理后,主要解碼耗時模塊的改善情況如表2所示。 3.5 實時播放方案設計 該系統采用雙Buffer輪換DMA傳送的方案實現實時播放,整個播放流程如圖5所示。其中n為解碼當前幀的幀序號,第一幀序號為0;buffer0和buffer1分別用于存放當前播放幀的PCM數據和下一幀的PCM數據。DMA傳送采用LLI傳送方式,可實現將2個buffer存放的PCM數據輪換向I2S FIFO傳送,因此只需在解碼完第1幀后啟動一次DMA傳送。 該方案的實現原理是在一幀MP3數據解碼時間遠小于1幀PCM數據播放時間(采樣率為44.1 kHz時,一幀PCM播放時間為26.1 ms)這一前提條件下,播放當前幀PCM數據的同時開始解碼下一幀MP3數據。因此在解碼完下一幀數據后,需要等待當前幀播放完畢,再繼續解碼。在圖5中,這一等待過程采用的是查詢DMA傳送結束標志的方式,這使得CPU一直處于忙狀態,白白消耗了系統資源。然而在多任務嵌入式系統中,這段等待時間恰恰是非常有利用價值的。MP3實時解碼可以一個任務的形式存在于多任務系統中,將圖5中的查詢過程改為休眠MP3解碼任務,同時將DMA中斷打開,在中斷服務程序中喚醒解碼任務,那么在解碼完畢下一幀后便可釋放CPU資源,將DMA中斷發生前的這段等待時間用于調度其他進程,例如JPEG解碼任務和GUI任務,從而實現播放音樂、播放圖片和用戶操作3者的高效協同工作。 4 結 語 本文給出的MP3實時解碼系統在基于ARM926EJ-S核心的SoC硬件平臺上,對MP3解碼算法和實時播放方案進行優化設計。實驗結果證明,該系統可在處理器主頻僅為36 MHz的條件下流暢播放MP3音樂(碼率為192 kb/s),可嵌入數碼相框、MP4等產品中實現MP3實時播放功能 |