H.264/AVC是ITU-T和ISO聯(lián)合發(fā)布的國(guó)際視頻壓縮標(biāo)準(zhǔn),比特壓縮率分別是MPEG-4、H.263及MPEG-2的39%、49%及64%,是一種高壓縮比的新標(biāo)準(zhǔn)。基于內(nèi)容的自適應(yīng)可變長(zhǎng)編碼(CAVLC)是H.264中關(guān)鍵技術(shù)之一,應(yīng)用于H.264的基本檔次和擴(kuò)展檔次對(duì)亮度和色度殘差數(shù)據(jù)塊進(jìn)行編解碼,編碼效率高,抗誤碼和糾錯(cuò)能力強(qiáng),但計(jì)算復(fù)雜度大,用軟件編碼難以滿足高清視頻實(shí)時(shí)性要求。H.264編碼過(guò)程不涉及任何浮點(diǎn)數(shù)運(yùn)算,特別適合硬件電路實(shí)現(xiàn)。文獻(xiàn)提出的CAVLC編碼可分成掃描和編碼2部分,掃描部分對(duì)殘差數(shù)據(jù)zig-zag逆序掃描后,提取出run-level標(biāo)志以及相關(guān)信息提供給編碼部分進(jìn)行編碼。文獻(xiàn)對(duì)掃描模塊進(jìn)行了優(yōu)化。編碼模塊中非零系數(shù)級(jí)(level)編碼計(jì)算量最大,復(fù)雜度最高。本文充分利用FPGA高速實(shí)時(shí)特點(diǎn),采用并行處理及流水線設(shè)計(jì),通過(guò)優(yōu)化CAVLC編碼結(jié)構(gòu)和level編碼子模塊,提高CAVLC編碼器的性能。 1 CAVLC原理 CAVLC是一種依據(jù)4×4塊變換系數(shù)的zig-zag掃描順序進(jìn)行的編碼算法。塊系數(shù)的非零系數(shù)幅值較小,主要集中在低頻段,經(jīng)過(guò)zig-zag掃描后,連續(xù)零的個(gè)數(shù)較多,采用run-level游程編碼,通過(guò)編碼5個(gè)語(yǔ)義元素能夠?qū)崿F(xiàn)高效無(wú)損壓縮,編碼流程如圖1所示。zig-zag掃描后,順序編碼系數(shù)標(biāo)記(coeff_token)。尾1的符號(hào)(trailing_ones_sign_flag)、除尾1外非零系數(shù)的級(jí)(level),最后一個(gè)非零系數(shù)前零的個(gè)數(shù)(total_zeros)和零的游程(run_before)。其中TC、T1、T0分別表示非零系數(shù)個(gè)數(shù)、尾1個(gè)數(shù)以及最后一個(gè)非零系數(shù)前零的個(gè)數(shù)。由于CAVLC編碼流程是串行的,軟件容易實(shí)現(xiàn),但執(zhí)行速度慢且效率低。 2 CAVLC編碼器硬件結(jié)構(gòu)設(shè)計(jì) 2.1 并行化編碼結(jié)構(gòu) 為了提高運(yùn)算速度和效率,將圖1的CAVLC編碼流程并行化處理,適合FPGA實(shí)現(xiàn)。根據(jù)文獻(xiàn)提出的思路,將CAVLC編碼分成掃描和編碼2部分,見(jiàn)圖2。由zig-zag逆序掃描、統(tǒng)計(jì)、編碼、碼流整合4個(gè)模塊組成。zig-zag模塊和統(tǒng)計(jì)模塊構(gòu)成掃描部分,編碼模塊和碼流整合模塊構(gòu)成編碼部分,系統(tǒng)采用狀態(tài)機(jī)控制。由于trailing_ones_sign_flag、level和run_before都是從zig-zag掃描后序列的尾部開(kāi)始編碼,所以本設(shè)計(jì)中zig-zag采用逆序掃描。統(tǒng)計(jì)模塊用計(jì)數(shù)器統(tǒng)計(jì)zig-zag逆序掃描輸出序列的TC、T1和T0,將尾1符號(hào)(T1_sign)、除尾1外的非零系數(shù)(coeffs)和零的游程(runbefore)存入緩存器并輸出。編碼模塊分成6個(gè)子模塊:NC生成模塊、coeff_token模塊、trailing_ones_sign_flag模塊、level模塊、total_zeros模塊以及run_before模塊。統(tǒng)計(jì)模塊給各編碼子模塊提供輸入數(shù)據(jù),保證各編碼子模塊并行工作,減少了CAVLC編碼的時(shí)鐘周期,提高了編碼器執(zhí)行效率。由于CAVLC編碼是變長(zhǎng)的,使得每個(gè)編碼子模塊的輸出碼流長(zhǎng)度不確定,各編碼子模塊的碼字寄存器寬度不同。為了保證各編碼子模塊生成的碼字能夠緊湊無(wú)縫鏈接和有效存儲(chǔ),在各編碼子模塊的碼字輸出中嵌入輸出標(biāo)志信號(hào)和碼長(zhǎng)信息,當(dāng)輸出標(biāo)志信號(hào)為高電平時(shí)碼字與碼長(zhǎng)有效,低電平時(shí)則無(wú)效,經(jīng)碼流整合模塊整合后輸出。 2.2 level編碼的優(yōu)化實(shí)現(xiàn) 非零系數(shù)級(jí)編碼是CAVLC編碼中復(fù)雜度最高、計(jì)算量最大、編碼延時(shí)最長(zhǎng)的部分也是CAVLC編碼器高速、高效運(yùn)行的瓶頸之一。根據(jù)H.264中CAVLC的level解碼步驟可設(shè)計(jì)出相應(yīng)的編碼流程,如圖3所示。 (1)初始化suffixlength為0,如果TC>10,并且T1<3,則初始化為1。 (2)計(jì)算中間變量levelcode[ i]: (5)寫(xiě)碼字。 非零系數(shù)級(jí)的碼字為“前綴碼字+后綴碼字”,前綴碼字為prefix個(gè)0后緊跟一個(gè)1(即前綴碼字為1,碼長(zhǎng)為prefix+1),后綴碼字值為suffix,碼長(zhǎng)為levelsuffixsize。 依據(jù)圖3編碼流程,level編碼所需的時(shí)鐘周期與TC和T1之差有關(guān),不同的數(shù)據(jù)塊所需的時(shí)鐘周期不同,而編碼前需經(jīng)過(guò)掃描和統(tǒng)計(jì)。當(dāng)非零系數(shù)較多時(shí),level編碼采用傳統(tǒng)的串行方式所需的時(shí)鐘周期可能比統(tǒng)計(jì)模塊所耗要多,導(dǎo)致不穩(wěn)定的吞吐量。另一方面,獲得level的碼字需知道該系數(shù)的prefix、suffix以及l(fā)evelsuffixsize,而levelsuffixsize的大小是自適應(yīng)變化的,與上一個(gè)已編碼系數(shù)的絕對(duì)值大小有關(guān),這給并行處理帶來(lái)了一定困難。為此,采用并行處理和兩級(jí)流水線相結(jié)合的結(jié)構(gòu)并行處理2個(gè)非零系數(shù),如圖4所示。第一級(jí)初始化suffixlength,求coeffs的絕對(duì)值及中間變量levelcode;第二級(jí)更新suffixlength,計(jì)算prefix,suffix和levelsuffixlength。模塊coeffs SIPO buffer實(shí)現(xiàn)串行輸入并行輸出,輸入輸出關(guān)系如圖5所示。 3 實(shí)驗(yàn)驗(yàn)證分析 Level編碼電路結(jié)構(gòu)采用Verilog HDL語(yǔ)言描述,在ModelSim SE 6.0上進(jìn)行仿真,使用Synplicity公司的Synplify Pro完成綜合過(guò)程。最后采用Xilinx公司VirtexⅡ系列的xc2v250 FPGA進(jìn)行實(shí)現(xiàn)和驗(yàn)證。 圖6給出了ModelSim的仿真波形,其結(jié)果與JVT校驗(yàn)軟件模型JM16.2的值一致。從圖6可以看出,并行編碼TC-T1個(gè)level值比串行方式節(jié)省(TC-T1)/2個(gè)時(shí)鐘周期,當(dāng)非零系數(shù)較多時(shí),也能獲得穩(wěn)定的吞吐量。表1給出了Synplify Pro綜合的硬件資源報(bào)告。系統(tǒng)允許的最高時(shí)鐘頻率為158.1 MHz,硬件資源消耗如表1所示。綜上所述,本設(shè)計(jì)滿足H.264實(shí)時(shí)高清視頻編碼的要求。 |