視音頻編解碼技術及其實現
一、 視音頻編碼國際標準化組織及其壓縮標準介紹 國際上有兩個負責視音頻編碼的標準化組織,一個是VCEG(Video code Expert Group),是國際電信聯合會下的視頻編碼專家組,一個是MPEG(Motion Picture Expert Group),是國際標準化組織下的運動圖象專家組。這兩個視音頻編碼標準化組織都對視音頻的編解碼做出了非常重要的貢獻:一是推動視音頻編碼技術的發展,一是推動視音頻編解碼的應用。 視音頻編解碼涉及很多項視頻和音頻處理技術,每一項技術的改進都對視音頻編碼做出貢獻,但作為一套完整、高效的編碼方案,需要集中全人類在視音頻編解碼方面的最新智慧。個人或公司的研究成果,都希望被標準化組織,其經濟回報是標準使用費。 這兩個標準化組織制定的相關編碼標準都獲得了廣泛的應用,VCEG制定的標準有H.261(被國際電信聯合會選定為電視會議的視頻壓縮標準)、H.262(該標準同MPEG-2完全一樣,是VCEG同MPEG組成的聯合編碼專家組JVT制定的壓縮標準,VCEG發布的是H.262,MPEG發布的是MPEG-2)、H.263(該標準被國際電信聯合會選定為可視電話的視頻壓縮標準,有增強型版本H.263+、H.263++)、H.264(該標準是2002年5月VCEG為新一代交互式視頻通訊制定的標準)。MPEG名氣要大得多,制定的標準有MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21 ,MPEG-1壓縮標準為VCD所采納,MPEG-2的壓縮標準為DVD采納,MPEG-4是為交互式多媒體通訊制定的壓縮標準,MPEG-7是為互聯網視頻檢索制定的壓縮標準。 VCEG制定的壓縮標準H.26X都是針對單一矩形視頻對象,其追求的是更高的壓縮效率。MPEG-4在目前之所以很熱,是因為MPEG-4是基于多個視音頻對象的壓縮編碼標準,這非常適合于互聯網上的多媒體應用。在互聯網上傳播的多媒體信息,很多是可以劃分為多個視頻對象的,如電腦制作的動畫節目、電視新聞節目等,而在實時視頻圖象編碼中,在一個圖象矩形框中很難實時識別多個視頻對象,還是把一個視頻源當作一個矩形視頻對象進行編碼。 VCEG在97年發布H.263的壓縮標準后,制定了短期開發計劃H.26N和長期開發計劃H.26L,H.26N發展成H.263+和H.263++,H.26L經過5年時間的發展,在2002年5月作為H.264壓縮標準進行發布。 MPEG在VCEG發布H.263之后,發布了MPEG-4 SP(即MPEG-4第一板),在該版本中引入了兩個非常重要的概念:一個是一個視頻源多個視音頻對象編碼,一個是碼流傳輸異常處理(特別是無線傳輸應用)。從這里可以看出,VCEG致力于高效率的視頻編碼技術,MPEG更側重系統和框架。 在2001年第四季度,VCEG H.26L發展到TML9.0時,MPEG同VCEG再次組成聯合聯合視頻編碼專家組JVT,對H.26L的算法進行了改進和完善,在2003年5月VCEG發布了H.264的壓縮標準。MPEG在JVT對H.26L壓縮算法修改的基礎上,將該技術規范納入到MPEG-4的標準中,作為MPEG-4 PART10發布,即MPEG-4的第三版,MPEG-4 AVC。H.264和MPEG-4 AVC代表了全人類在視音頻編解碼方面的最新成果。 針對單一矩形視頻對象,MPEG-4 AVC比MPEG-4第二版MPEG-4 ACE的壓縮效率提高30%以上。
二、 H.264與MPEG-4 PART10的技術說明 同以前的視頻壓縮標準H.263++和MPEG-4 ACE相比,H.264與MPEG-4 PART10采用了一些新的算法,主要表現在以下幾個方面: 1、運動搜索 a、 引入多參考幀 引入多達5個參考幀。 b、 多種BLOCK形狀 有16*16、16*8、8*16、8*8、8*4、4*8、4*4七種BLOCK形狀。 c、運動搜索精度更高 1/2象素精度搜索采用了6階濾波器,搜索精度有很大提高。也引入了1/4象素精度搜索和1/8象素精度搜索。 2、殘余編碼 a、 采用整型4*4 DCT變換 b、 量化技術改進 c、 采用DE-BLOCK技術 d、 SP幀技術 這些技術的改變,一方面提高了壓縮效率,另一方面運算強度大幅提高,大大地提高了實現的難度。 | |