|
隨著通信技術和信號處理技術的發展,人們對多媒體信號的需求越來越多,要求的質量也越來越高,如何在現有的技術水平和硬件條件下實現合理、優化、實時的多媒體通信終端設備和產品一直是近年來信號處理領域和相關公司關注的話題。
目前,隨著數字信號處理器(DSP)的高速發展,為我們實現高效的多媒體處理提供了可能性。尤其是TI公司的TMS320C64系列產品,具有高主頻,多流水線,高并行度以及專門的視頻信號處理指令等優點,使其成為視頻處理領域優選的DSP芯片之一。
其次,針對當前網絡帶寬還不夠,無線通信信道誤碼率較高的情況,穩定的低碼率視頻信號的需求一直都是必須和必要的。H.264/AVC是ITU-T視頻編碼專家組和ISO/IEC運動圖像專家組聯合提出的最新一代的視頻編碼標準。不論從編碼的效率方面,還是從有效的適應各種網絡和各種應用領域的靈活性方面,H.264/AVC都體現著視頻編碼技術的很多優勢。這些新特性使H.264/AVC標準在實現和現有編碼標準(H.263, MPEG-4 Simple Profile)相同視覺效果的同時節省大約50%比特率。
因此,將H.264的先進技術和穩定的媒體處理器相結合,實現高效的媒體通信平臺有著一定的工程意義和市場價值。
H.264簡介
H.264是ITU-T和ISO/IEC聯合制定的最新編碼標準,它最先由ITU-T于1997年提出,目標是提出一種更高性能(相對于當時的H.263)的視頻編碼標準。相對于其它標準,H.264具有以下特點:
1. 低碼率,高質量
在相同質量的情況下,H.264相對于H.263的Baseline可以節約40%~50%的碼率。
2. 廣闊的應用范圍
H.264的不同Profile既可以應用于有嚴格時延限制的實時通信中,也可以應用于對時延要求不高的其他應用中(視頻存儲、流媒體等等)。
3. 魯棒性
H.264在設計時,針對分組交換網如Internet中的分組丟失和無線網絡中比特誤碼都提出了相應的工具,使得H.264在這些網絡中傳播時具有更強的抗誤碼性能。
4. 對各種網絡的友好性。
H.264中增加了NAL層,負責將編碼器的輸出碼流適配到各種類型的網絡中,從而提供了友好的網絡接口。H.264之所以能夠達到以上性能,是因為采用了以下一些先進的技術:
首先是幀內預測編碼,充分利用圖像空域相關性,來降低碼率。共有13種預測模式(4×4塊大小9種預測模式,16×16塊大小4種預測模式),這在以往標準中是沒有的。
其次采用新的運動估計方法。H.264有7種塊匹配模式,編碼時對其逐一計算,選擇最優。例如較為精細的部分采用4×4塊大小,不運動的背景可以采用16×16塊大小等等。以往標準只有固定的一種或兩種塊大小模式。H.264采用多幀參考,最大限度利用實域相關性。參考幀可以從1幀到15幀,以往標準都是單幀參考。還有采用1/4或1/8精度的亞象素運動估計,以往標準至多采用1/2精度亞象素搜索,而且不是必選選項。為了消除視頻編碼中常出現的塊效應,H.264使用了去塊效應濾波器。
它還采用整數DCT變換,以提高變換速度,采用CAVLC,CABAC等新的熵編碼方法以提高編碼效果。
NVDK開發平臺介紹
NVDK是TI的第三方ATEME公司推出的基于TI的C64系列DSP評估開發套件,是一套適用于圖像、視頻信號處理的高速DSP開發平臺。該套件為諸如視頻基礎設施及網絡化視頻設備等高級視頻應用制造商提供了方便,提高了數字視頻應用項目的開發速度。
NVDK的核心是一塊C6416DSP,主頻600Mhz,處理能力達到4800MIPS。它具有64個獨立通用寄存器,1M字節的片上內存,具有64位和16位片外內存接口各一個。它還具有豐富的DMA通道,大大緩解了CPU的運算壓力。此外,C6416支持8,16 ,32,40,64位數據讀寫及運算,具有豐富的媒體處理指令,如一條指令對4個字節的數據進行加、減、乘、求絕對值、點乘等運算,方便進行媒體處理開發。
此外,NVDK板上還有豐富的音視頻接口,并提供相關的視頻捕獲,格式轉換,視頻播放等函數,大大方便我們的工作。
H.264編解碼器在DSP上的實現與優化
將H.264在DSP上實現與優化,需要經過以下幾個步驟:PC機端算法實現及優化,代碼移植,DSP端代碼優化。下面就著幾個方面逐一進行介紹:
1. PC機端算法實現與優化。
我們選取ITU-T公布的JM6.1e參考軟件作為我們的優化對象,目標是實現一個base-line profile的實時編解碼算法。但是JM6.1e代碼復雜,冗余度很大,需要在PC機端對其進行較大調整,涉及工作有:去除冗余代碼、規范程序結構、全局和局部變量的調整和重新定義、結構體的調整等。
2. 代碼移植
代碼移植,就是將在PC端跑通的程序,移植到DSP端,使其能夠初步運行。需要考慮的問題主要是一些內存分配,語法規則等問題。
3. DSP端代碼的優化
通過把PC機H.264代碼DSP化,可以在DSP上實現H.264的編解碼算法,但是,這樣實現的算法運行效率很低,因為所有的代碼都是由C語言編寫,并沒有完全利用DSP的各種性能。所以必須結合DSP本身的特點,對其進一步優化,才能實現H.264視頻解碼器算法對視頻圖像的實時處理。
代碼的優化分為三個層次:項目級優化,算法級優化,指令級優化。
* 項目級優化項目級優化,是對項目的整體優化,主要手段有以下幾點:
首先是利用CCS編譯器提供的優化功能,對優化選項進行選擇和配置,如打開O-3選項等。
其次對程序結構進行調整,對不適合DSP執行的語句進行改寫,以提高代碼的并行性。
最后是對內存進行合理分配,因為DSP資源有限,我們把一些常用數據,如全局變量,程序等數據分配到訪問速度高的片內內存,把占用空間較大的數據分配在片外,如幀存等。
* 算法級優化
是利用H.264的自身特點,提出快速高效算法,從算法上挖掘潛力,提高運行速度,達到優化目的。這部分工作主要集中在編碼器優化方面。
視頻編碼中,運動估計部分是運算量最大的一塊,研究顯示,對于H.264,單幀參考,運動估計占總運算量的70%,5幀參考,這個比例能達到90%,因此,提出有效快速的運動估計算法非常有必要,我們通過研究提出了基于預測和早停止技術的運動估計算法,主要方法是利用周邊鄰塊對當前塊運動矢量進行預測,并設定自適應閾值,使搜索提前停止。我們提出的算法,在搜索窗32時,每塊平均搜索點數3-4個左右,和全搜索算法的4225余個點相比,提高速度1000多倍。和一些經典快速算法相比,優勢也很明顯, H.264算法中,亞象素運動估計采用全搜索,1/4精度下,需要搜索1 6個點。我們提出了自己的亞象素快速搜索算法,平均搜索點數7個,節省運算量60%以上。我們提出的新算法提高編碼速度很明顯,而且質量也較好,PSNR損失不到0.06dB,碼率增大2%左右。這對于運動估計算法基本可以忽略不計。
此外,我們針對幀間編碼7中塊大小匹配模式,以及幀內預測13中模式太過復雜,運算量太大的問題,提出了我們自適應模式選擇算法,不需要將所有模式全部計算,就能找到一種相對最優的模式。這些算法,都大大提高了代碼的運行速度,在速度與質量上達到較好的折中。
* 指令級優化
如果上述優化方法無法達到實時要求,就需要進行指令級優化了,主要手段有。
* 循環拆解,將C語言中的for循環打開,排流水線,提高并行性
* 調用系統提供的豐富的內聯函數
* 調整數據結構,將需要大規模訪問的數據,在內存中將它們放置在一起,方便DMA機制的訪問,或并行指令的處理,如插值函數模塊。
* 將耗時函數抽取出來,用線性匯編改寫,充分利用豐富的媒體處理指令【5】,最大限度的利用DSP的并行性。例如,運動估計中頻繁調用的SAD計算,是對相應象素點做差,并對殘差場求絕對值和的計算。原始算法是對每一對象素點分別求差,再對其絕對值累加。我們對其進行了線性匯編的改寫,使用了SUBABS4(一次對兩對4字節數據做差并求絕對值),DOTPU4(一次對兩對4字節數據做內積),LDW\LDNW(一次讀取4字節數據)等指令,使代碼并行性有了很大提高。對16×16的塊來說,優化前需要指令1000余條,優化后,200條就足夠了。 我們充分利用系統并行性,對耗時函數進行匯編語言改寫,涉及函數有DCT變換,反DCT變換,整象素運動估計,亞象素搜索,幀內編碼函數,插值函數等,效果明顯。
算法性能的評測及前景展望
在NVDK C6416環境下,測試了編解碼器算法,對QCIF測試序列,編碼器40_50幀/秒的編碼碼速度,解碼器達到50_60幀/秒的解碼速度,遠遠達到了實時性解碼的目的。
因為代碼的兼容性和可移植性,我們可以把在C6416上實現的編解碼算法移植到TI公司推出的媒體處理專用芯片TMS320DM642上,利用其豐富的媒體處理接口和協處理器,實現更好的性能。 |
|