數字視頻技術廣泛應用于通信、計算機、廣播電視等領域,帶來了會議電視、可視電話及數字電視、媒體存儲等一系列應用,促使了許多視頻編碼標準的產生。ITU-T與ISO/IEC是制定視頻編碼標準的兩大組織,ITU-T的標準包括H.261、H.263、H.264,主要應用于實時視頻通信領域,如會議電視;MPEG系列標準是由ISO/IEC制定的,主要應用于視頻存儲(DVD)、廣播電視、因特網或無線網上的流媒體等。兩個組織也共同制定了一些標準,H.262標準等同于MPEG-2的視頻編碼標準,而最新的H.264標準則被納入MPEG-4的第10部分。 本文按照ITU-T視頻編碼標準的發展過程,介紹H.261、H.263及H.264。 H.261視頻編碼標準 H.261是ITU-T為在綜合業務數字網(ISDN)上開展雙向聲像業務(可視電話、視頻會議)而制定的,速率為64kb/s的整數倍。H.261只對CIF和QCIF兩種圖像格式進行處理,每幀圖像分成圖像層、宏塊組(GOB)層、宏塊(MB)層、塊(Block)層來處理。 H.261是最早的運動圖像壓縮標準,它詳細制定了視頻編碼的各個部分,包括運動補償的幀間預測、DCT變換、量化、熵編碼,以及與固定速率的信道相適配的速率控制等部分。 H.263視頻編碼標準 H.263是最早用于低碼率視頻編碼的ITU-T標準,隨后出現的第二版(H.263+)及H.263++增加了許多選項,使其具有更廣泛的適用性。 H.263視頻壓縮標準 H.263是ITU-T為低于64kb/s的窄帶通信信道制定的視頻編碼標準。它是在H.261基礎上發展起來的,其標準輸入圖像格式可以是S- QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亞取樣圖像。H.263與H.261相比采用了半象素的運動補償,并增加了4種有效的壓縮編碼模式。 無限制的運動矢量模式允許運動矢量指向圖像以外的區域。當某一運動矢量所指的參考宏塊位于編碼圖像之外時,就用其邊緣的圖像象素值來代替。當存在跨邊界的運動時,這種模式能取得很大的編碼增益,特別是對小圖像而言。另外,這種模式包括了運動矢量范圍的擴展,允許使用更大的運動矢量,這對攝像機運動特別有利。 基于句法的算術編碼模式使用算術編碼代替霍夫曼編碼,可在信噪比和重建圖像質量相同的情況下降低碼率。 先進的預測模式允許一個宏塊中4個8×8亮度塊各對應一個運動矢量,從而提高了預測精度;兩個色度塊的運動矢量則取這4個亮度塊運動矢量的平均值。補償時,使用重疊的塊運動補償,8×8亮度塊的每個象素的補償值由3個預測值加權平均得到。使用該模式可以產生顯著的編碼增益,特別是采用重疊的塊運動補償,會減少塊效應,提高主觀質量。 PB-幀模式規定一個PB-幀包含作為一個單元進行編碼的兩幀圖像。PB-幀模式可在碼率增加不多的情況下,使幀率加倍。 H.263視頻壓縮標準版本2 ITU-T在H.263發布后又修訂發布了H.263標準的版本2,非正式地命名為H.263+標準。它在保證原H.263標準核心句法和語義不變的基礎上,增加了若干選項以提高壓縮效率或改善某方面的功能。原H.263標準限制了其應用的圖像輸入格式,僅允許5種視頻源格式。H.263+標準允許更大范圍的圖像輸入格式,自定義圖像的尺寸,從而拓寬了標準使用的范圍,使之可以處理基于視窗的計算機圖像、更高幀頻的圖像序列及寬屏圖像。 為提高壓縮效率,H.263+采用先進的幀內編碼模式;增強的PB-幀模式改進了H.263的不足,增強了幀間預測的效果;去塊效應濾波器不僅提高了壓縮效率,而且提供重建圖像的主觀質量。 為適應網絡傳輸,H.263+增加了時間分級、信噪比和空間分級,對在噪聲信道和存在大量包丟失的網絡中傳送視頻信號很有意義;另外,片結構模式、參考幀選擇模式增強了視頻傳輸的抗誤碼能力。 H.263++視頻壓縮標準 H263++在H263+基礎上增加了3個選項,主要是為了增強碼流在惡劣信道上的抗誤碼性能,同時為了提高增強編碼效率。這3個選項為: 選項U——稱為增強型參考幀選擇,它能夠提供增強的編碼效率和信道錯誤再生能力(特別是在包丟失的情形下),需要設計多緩沖區用于存貯多參考幀圖像。 選項V——稱為數據分片,它能夠提供增強型的抗誤碼能力(特別是在傳輸過程中本地數據被破壞的情況下),通過分離視頻碼流中DCT的系數頭和運動矢量數據,采用可逆編碼方式保護運動矢量。 選項W——在H263+的碼流中增加補充信息,保證增強型的反向兼容性,附加信息包括:指示采用的定點IDCT、圖像信息和信息類型、任意的二進制數據、文本、重復的圖像頭、交替的場指示、稀疏的參考幀識別。 H.264視頻編碼標準 H.264是由ISO/IEC與ITU-T組成的聯合視頻組(JVT)制定的新一代視頻壓縮編碼標準。事實上,H.264標準的開展可以追溯到8年前。1996年制定H.263標準后,ITU-T的視頻編碼專家組(VCEG)開始了兩個方面的研究:一個是短期研究計劃,在H.263基礎上增加選項 (之后產生了H.263+與H.263++);另一個是長期研究計劃,制定一種新標準以支持低碼率的視頻通信。長期研究計劃產生了H.26L標準草案,在壓縮效率方面與先期的ITU-T視頻壓縮標準相比,具有明顯的優越性。2001年,ISO的MPEG組織認識到H.26L潛在的優勢,隨后ISO與ITU 開始組建包括來自ISO/IEC MPEG與ITU-T VCEG的聯合視頻組(JVT),JVT的主要任務就是將H.26L草案發展為一個國際性標準。于是,在ISO/IEC中該標準命名為AVC (Advanced Video Coding),作為MPEG-4標準的第10個選項;在ITU-T中正式命名為H.264標準。H.264的主要優點如下: 在相同的重建圖像質量下,H.264比H. 263+和MPEG-4(SP)減小50%碼率。 對信道時延的適應性較強,既可工作于低時延模式以滿足實時業務,如會議電視等;又可工作于無時延限制的場合,如視頻存儲等。 提高網絡適應性,采用“網絡友好”的結構和語法,加強對誤碼和丟包的處理,提高解碼器的差錯恢復能力。 在編/解碼器中采用復雜度可分級設計,在圖像質量和編碼處理之間可分級,以適應不同復雜度的應用。 相對于先期的視頻壓縮標準,H.264引入了很多先進的技術,包括4×4整數變換、空域內的幀內預測、1/4象素精度的運動估計、多參考幀與多種大小塊的幀間預測技術等。新技術帶來了較高的壓縮比,同時大大提高了算法的復雜度。 4×4整數變換 以前的標準,如H.263或MPEG-4,都是采用8x8的DCT變換。H.26L中建議的整數變換實際上接近于4×4的DCT變換,整數的引入降低了算法的復雜度,也避免了反變換的失配問題,4×4的塊可以減小塊效應。而H.264的4×4整數變換進一步降低了算法的復雜度,相比H.26L中建議的整數變換,對于9b輸入殘差數據,由以前的32b降為現在的16b運算,而且整個變換無乘法,只需加法和一些移位運算。新的變換對編碼的性能幾乎沒有影響,而且實際編碼略好一些。 基于空域的幀內預測技術 視頻編碼是通過去除圖像的空間與時間相關性來達到壓縮的目的?臻g相關性通過有效的變換來去除,如DCT變換、H.264的整數變換;時間相關性則通過幀間預測來去除。這里所說的變換去除空間相關性,僅僅局限在所變換的塊內,如8×8或者4×4,并沒有塊與塊之間的處理。H.263+與MPEG-4 引入了幀內預測技術,在變換域中根據相臨塊對當前塊的某些系數做預測。H.264則是在空域中,利用當前塊的相臨象素直接對每個系數做預測,更有效地去除相臨塊之間的相關性,極大地提高了幀內編碼的效率。 H.264基本部分的幀內預測包括9種4×4亮度塊的預測、4種16×16亮度塊的預測和4種色度塊的預測。 運動估計 H.264的運動估計具有3個新的特點:1/4象素精度的運動估計;7種大小不同的塊進行匹配;前向與后向多參考幀。 H.264在幀間編碼中,一個宏塊(16×16)可以被分為16×8、8×16、8×8的塊,而8×8的塊被稱為子宏塊,又可以分為8×4、4× 8、4×4的塊。總體而言,共有7種大小不同的塊做運動估計,以找出最匹配的類型。與以往標準的P幀、B幀不同,H.264采用了前向與后向多個參考幀的預測。半象素精度的運動估計比整象素運動估計有效地提高了壓縮比,而1/4象素精度的運動估計可帶來更好的壓縮效果。 編碼器中運用多種大小不同的塊進行運動估計,可節省15%以上的比特率(相對于16×16的塊)。運用1/4象素精度的運動估計,可以節省20%的碼率(相對于整象素預測)。多參考幀預測方面,假設為5個參考幀預測,相對于一個參考幀,可降低5%~10%的碼率。以上百分比都是統計數據,不同視頻因其細節特征與運動情況而有所差異。 熵編碼 H.264標準采用的熵編碼有兩種:一種是基于內容的自適應變長編碼(CAVLC)與統一的變長編碼(UVLC)結合;另一種是基于內容的自適應二進制算術編碼(CABAC)。CAVLC與CABAC根據相臨塊的情況進行當前塊的編碼,以達到更好的編碼效率。CABAC比CAVLC壓縮效率高,但要復雜一些。 去塊效應濾波器 H.264標準引入了去塊效應濾波器,對塊的邊界進行濾波,濾波強度與塊的編碼模式、運動矢量及塊的系數有 關。去塊效應濾波器在提高壓縮效率的同時,改善了圖像的主觀效果。 其他視頻編碼標準 除上述ITU-T的視頻壓縮標準外,還有一些標準也比較流行,如MPEG-4、AVS、WM9。 H.264也稱為MPEG-4 AVC,而目前業內所說的MPEG-4一般是指SP(簡級)或ASP(先進的簡級),主要針對低碼率應用,如因特網上的流媒體、無線網的視頻傳輸及視頻存儲等,其核心類似于H.263。 MPEG-4 SP和H.263有很多相似的地方,如附表所示。然而,這兩個標準之間也有顯著的不同,主要表現在:碼流結構和頭信息、熵編碼的部分碼表、編碼技術的一些細節。MPEG-4 ASP較SP增加了一些技術,主要有:1/4象素精度的運動估計、B幀、全局運動矢量(GMV),因而壓縮效率得以提高。 AVS是由我國自主制定的音/視頻編碼技術標準,主要面向高清晰度電視、高密度光存儲媒體等應用。AVS標準以當前國際上最先進的MPEG-4 AVC/H.264框架為基礎,強調自主知識產權,同時充分考慮了實現的復雜度。相對于H.264,AVS的主要特點有:(1)8×8的整數變換與64級量化;(2)亮度和色度幀內預測都是以8×8塊為單位,亮度塊采用5種預測模式,色度塊采用4種預測模式;(3)采用16×16、16×8、8×16和8 ×8 4種塊模式進行運動補償;(4)在1/4象素運動估計方面,采用不同的四抽頭濾波器進行半象素插值和1/4象素插值;(5)P幀可以利用最多2幀的前向參考幀,而B幀采用前后各一個參考幀。 Window Meida 9(WM9)是微軟公司開發的新一代數字媒體技術。一些測試表明,WM9的視頻壓縮效率比MPEG-2、MPEG-4 SP及H.263高很多,而與H.264的壓縮效率相當。 結束語 目前,H.261與H.263在視頻通信中廣泛應用,成熟的產品已經很多。H.263與H.261相比,增加了若干選項,提供了更靈活的編碼方式,壓縮效率大大提高,更適應網絡傳輸。H.264標準的推出,是視頻編碼標準的一次重要進步,它與現有的MPEG-2、MPEG-4 SP及H.263相比,具有明顯的優越性,特別是在編碼效率上的提高,使之能用于許多新的領域。盡管H.264的算法復雜度是現有編碼壓縮標準的4倍以上,隨著集成電路技術的快速發展,H.264的應用將成為現實。 |