MPEG-4是一種新興的視頻標準,其彈性糾錯能力和可支持小屏幕的特性使之在移動通信市場上受到廣泛關注,幾乎所有移動電話生產商和PDA開發商都對其表示出極大的興趣。然而這種視頻標準對處理器的要求卻非常高。在整個移動通信結構中,僅MPEG-4處理器這一部分就會毫不客氣地吞掉大量的資源。因而要想真正實現無線視頻應用這一夢想,首先就必須解決MPEG-4信號處理問題。 工程師們已經嘗試過采用固定編碼邏輯和通用型DSP來完成這一龐然大物般的MPEG-4處理,但結果均不理想。固定編碼邏輯雖然能夠提供較高的性能,但設計和實現所需的時間太長,而且得到的設計結果不夠靈活,無法滿足將來修改的需要。而通用可編程數字信號處理器(DSP)盡管很適合有限沖擊響應(FIR)濾波和其他一些MAC密集的應用,但對于可變長度解碼和離散余弦變換等視頻編解碼中固有的算法卻又無法有效實現。 那么怎樣才能設計出滿足要求的處理器呢?本文給出了一種方案:采用定制DSP。工程師們可以利用數字DSP IP核并結合一些新的設計方法,設計一種用戶化的引擎來完成所需的MPEG-4功能,從而將無線視頻應用變為現實。 本方案的第一步,要開發一種應用軟件來執行MPEG-4視頻標準,然后對該軟件進行優化和校驗,以保證其滿足MPEG-4視頻標準的要求。第二步,在這個應用軟件得到優化之后,將其編譯至一個通用型DSP引擎,仔細分析它在應用中可能出現的性能瓶頸。通過分析,構造一組由設計者定義的計算單元(DDCU),有針對性地解決應用中的計算瓶頸問題。這組DDCU構成一個庫,利用這個庫,設計者可以為不同的產品和產品域創建不同的用戶應用DSP引擎。例如,在一個支持QCIF(四分之一普通接口格式)和CIF幀格式的PDA中,可以通過簡單等級(SP)和高級簡單等級(ASP)創建一個簡單的定制 DSP來實現低速編解碼。 此外,通過恰當的設計規劃,設計者還可以使引擎的性能剛好滿足目標產品的要求——例如針對CIF格式設計出幀處理速度為每秒15幀的 DSP引擎——這樣就能降低對時鐘速率、指令長度和存儲映像的要求,從而實現低功率和低成本。但是若想支持更大尺寸的幀并支持高級分析,就需要創建一種性能更高的DSP引擎。這種DSP引擎內部并行度更高,可用資源量更大,因而運行速度也更快。 最后一步,將定制DSP融入多處理器內核,通過兩者的共同作用來達到進一步規劃高端應用性能的目的。在當今的通信行業中,產品推向市場的速度越來越快,以上談到的方法和工具恰好為快速分析和創建定制DSP從而加快產品設計提供了一種較好的方案。 下面讓我們看看定制DSP是如何創建的。 可定制的VLIW(超長指令字)引擎 引擎指一組資源的集合,通過對這種資源編程,可以使之以某種給定的順序實現一系列操作。通常,設計中最主要的處理工作是由數據通道資源-即我們所說的計算單元-來完成的。 計算單元可以對其輸入進行一系列操作,并輸出一個或多個計算結果。RISC(精簡指令集計算機)和DSP是兩種由計算單元組成的處理器。其中,RISC處理器每次(每時鐘周期)只能執行一個操作,而典型的多媒體和DSP應用卻可以在每個時鐘周期內執行多項操作。這是因為大部分這種高級DSP 的結構都具有某種形式的指令級并行處理能力。 本文給出的方案中,針對MPEG-4應用而設計的DSP引擎能夠達到固定編碼邏輯和通用型DSP都無法達到的性能。該引擎之所以如此成功,主要原因之一就是采用了VLIW結構。VLIW是一種非常適合多媒體應用的結構。它支持指令級并行性,這就使得采用它的DSP引擎可以在單時鐘周期內執行多項操作。不但如此,它還支持應用程序編譯過程中的并行性,這又避免了為龐大的視頻處理耗費過長的運行時間或增加過大的晶片體積。與VLIW類似的超標量體系結構也具備這一特性。 用戶應用引擎的一種專用解決方案 下面來討論一個現實生活中的解決方案,該方案采用了三級不同的可定制性來構造專門的用戶應用引擎。 第一級可定制性在處理器的標準資源處提供,這些標準資源包括算術邏輯單元(ALU)以及乘法器和累加器(MAC)等。對某些應用而言MAC 用得較多,如基于快速傅立葉變換(FFT)的算法;還有一些則傾向于更多地采用ALU。這就提出了一個要求,對于不同的應用,處理器應有不同的資源組合,而不是將所有的應用都分配到同樣的一組固定的資源中去。 例如,可以將一個MAC密集的算法分配到一個包含4 MAC、2 ALU、1 SHIFT的處理器中去,而將一個ALU密集的應用分配給一個包含3 ALU、1 MAC、1 SHIFT的引擎。這種處理器資源分配的可定制性對許多普通應用而言已經綽綽有余,但對大多數與視頻相關的應用來說還遠遠不夠,它們的要求更高,并且需要更多的運算單元來加快運行速度。 第二級可定制性允許向處理器添加DDCU協處理器。設計者先要對所需完成的應用有一個大致的認識,接著對該應用進行分析,將其中的一些專用函數分離出來,然后在硬件上專門針對這些函數進行加速處理,即添加DDCU。此外,設計者還可以分析一下,采用工具組添加DDCU來加快運行速度會對處理器的性能造成怎樣的潛在影響,以及在諸如此類的一些其他假設下會出現什么情況。 DDCU是一種適用于專用算法的計算單元。一旦設計者確認了哪個算法需要用DDCU進行硬件加速之后,就可以寫出實現該DDCU的RTL 代碼,并將其加入用戶應用引擎。例如,在通用DSP中加入濾波DDCU,那么若用該DSP實現一個需要濾波的應用,其表現出來的性能就會有所增強。 除此以外,設計者還要在增加并行性所帶來的性能優化和該并行性對指令的影響之間尋找最佳平衡。為解決這一問題,可以在VLIW指令中定義分段的數目(從而定義最大并行度),并為每一段分別分配CU和DDCU(見圖1)。 最后一級可定制性表現在處理器資源的選擇上。設計者可以自己決定需要多大的數據存儲器,以及需要多少個數據寄存器和地址寄存器。而且,根據具體應用所提出的數據要求,設計者還可以增加存儲器接口,以便提供并行數據訪問。這些共享的存儲器接口又可以用來連接多個處理器引擎,這就為處理器資源提供了一定的可伸縮性。 采用DSP引擎的一個關鍵的好處是可以加快產品投入市場的時間。但要達到這個目的,還要先定義一系列與DSP引擎協作的DDCU協處理器。在設計MPEG-4引擎的時候,首先要對其各個方面進行全面分析,確定需要采用哪些DDCU。然后用這些DDCU構建起一個大致MPEG-4引擎,分析其性能瓶頸,并針對性能瓶頸再定義一些DDCU加入引擎中,從而提高該引擎的性能,沖破其瓶頸。為了更方便地完成以上工作,人們開發出一個專門用于MPEG -4應用的DDCU庫。以下討論了該庫中的某些專用DDCU。 1. 比特流/可變長度解碼DDCU 在視頻編碼中常常會遇到可變長度解碼。比特流/可變長度解碼DDCU 可以加快從輸入比特流中取出可變長度字段的速度,這是一種基本操作。如果用軟件來實現這種比特流管理,會消耗大量的時鐘周期來處理指針的移位、屏蔽和管理,而采用比特流/可變長度解碼DDCU則可以在一個簡單的硬件單元里快速完成同樣的功能。 在比特流/可變長度解碼DDCU中,由用戶設計的指令組集中完成普通比特的提取和插入操作。這種DDCU不但能加快處理速度,提高整個視頻引擎的性能,還可以解放處理器中的其他資源,使之得以用于周圍的其他處理過程。因此,采用這種DDCU不但可以減小指令長度,同時還增強了系統性能。實際上,在DSP中加入這種計算單元會使可變長度解碼的速度增快23.2%。 2. 量化/反量化DDCU 量化和反量化是視頻編解碼中的兩種基本操作,其計算量占整個視頻編解碼計算量的10%甚至更多。量化/反量化DDCU允許在單周期內處理多像素,其內部操作可以滿足多種MPEG-4等級的量化需求。在比特流/可變長度解碼DDCU中,將可變長度解碼模塊的計算需求降低15.4%時,指令存儲空間也會減小,這一特性同樣適用于量化、反量化DDCU。 3. 半像素內插/運動補償DDCU 這種運算單元用于加速半像素內插操作,該操作所需計算量相當大。在解碼器中,內插/補償操作所消耗的時鐘周期約為總時鐘周期的40%。該單元中所涉及的運算其實很簡單,只需要面積很小的硅片就能完成,因此很容易移入DDCU中去。就算是邊緣擴展這樣的涉及大量計算的操作,只要不需要進行優化處理,也還是可以較好地移入硬件中。 不論采用哪種內插類型,內插/運動補償DDCU中的指令組都允許每周期內插4個像素,這一特性也減少了需要執行的指令數。通過使用內插/運動補償DDCU,半像素內插/運動補償操作的速度可以增快74.6%。 4. DCT/IDCT DDCU IDCT(反離散余弦變換)和DCT(離散余弦變換)都是視頻編碼中固有的運算。眾所周知,這兩種運算需要占用大量的時鐘周期,并要求在編寫其匯編代碼時非常小心。本文談到的這種專用DCT/IDCT DDCU單元(依據IEEE 1180-1990規范)可模仿DCT/IDCT中的“蝶形”運算。通過使用這種計算單元可以大大提高視頻設計的性能和生產力,從而使開發人員能夠集中精力開發視頻應用中的其他方面,以達到使其產品區別于其他同類產品的目的。 5. 運動估計(MEMC)DDCU MEMC單元用于幫助完成運動估計這一計算量最大的操作。無線視頻應用中,在每個運動矢量的位置上都必須進行誤差測量。MEMC DDCU可以完成兩種最常見的誤差測量計算:絕對誤差和(SAD)測量和平方誤差和(SSE)測量。DSP平臺中若加入該運算單元,那么每周期誤差測量時所比較和累加的像素位置就可以多達4個。 6. 四分之一像素運動補償單元 基本來說,該單元所提供的功能是對半像素內插單元的一種必要的擴展。四分之一像素算法比半像素算法稍微復雜一些,因為它首先采用了一個2維FIR 濾波器來獲取半像素值,然后才使用線性插值法來計算四分之一像素值。這個2維濾波器直接并入半像素內插單元,致使半像素內插單元的硅片面積稍有增大,但這種方式仍然保持了較高的像素處理速度,這一速度遠遠超過只采用Simple Profile 設計的DSP引擎。 7. 全局運動補償單元 在視頻應用中有一種變形函數(warping function)專門用來描述當前視頻對像相對于參考視頻對像的變化。全局運動補償(GMC)單元就是為加速這種函數的運算而設計的。該單元最大可支持 3點變形(即參考VOP的仿射變換)。一旦從比特流中分析出變形點的個數后,就用這個數值來初始化GMC。GMC計算變形等式的速度遠遠快于純軟件實現方式的計算速度。 8. 語境自適應算法編/解碼DDCU 構成語境需要進行逐位操作,而逐位操作只能在標準的32位DSP中實現。為了打破這一限制,語境自適應算法編/解碼DDCU采用硬件方法形成語境值。該DDCU內部有一個查找表,用于存放所有可能的語境值,以便快速查找判斷。語境自適應編解碼運算單元支持以1b/周期的速度進行算法編、解碼。 怎樣創建一個工作平臺 設計者定義了需要用到的DDCU之后,就可以用它們來創建滿足其特殊要求的用戶應用引擎,并由此構建起工作平臺,從而設計出具有MPEG-4視頻功能的產品。 為清楚起見,讓我們來看一個例子,例中的引擎是專門針對可傳送MPEG-4信息的3G移動電話設計的。這樣的引擎要想在3G移動電話上實現預期的視頻功能,就必須以低于20MHz的速度處理第1級和第2級MPEG-4簡單視覺等級,這樣才能為諸如音頻和語音處理等其他DSP功能留有一定的可規劃帶寬。 在開始設計用戶DSP時,分配1 ALU、1 SHIFT和1MAC單元作為起始基準平臺是比較合理的。要想增加并行性,只需將這些計算單元再分配給兩個單獨的指令段:ALU和SHIFT分配給同一段, MAC分配給另一段。如果該視頻應用采用的是幀處理速度為每秒15幀的CIF格式,那么要在這個用戶平臺上編譯視頻應用程序就需要40MHz的帶寬,若采用QCIF格式則只需10MHz帶寬。盡管這樣的帶寬已經很具競爭力了,但仍然不能滿足前面提到的具有MPEG-4功能的3G移動電話的需要。 降低帶寬要求的解決方案 首先,要分析在用戶平臺中加入不同的計算單元對其性能的影響(這些計算單元全部來自MPEG-4 DDCU庫)。也就是說,我們定義了一系列的引擎,以此分析不同的計算單元混用方式所造成的性能影響。分析表明,應該保留兩段型引擎定義,因為這可以限制指令寬度,使之不至于過寬。 然后再定義一些新的引擎,經過編譯,分析其結果。新引擎定義分析的整個過程用了1或2個小時。由于DDCU庫是提前創建好的,因此許多引擎可以在一天時間內就分析完。接著從這些引擎中選出最能滿足目標產品要求的,用來構建工作平臺。 這樣得到的工作平臺與基準平臺相比,增加了一個ALU和四個MPEG-4 DDCU:比特流DDCU、量化/反量化DDCU、半像素DDCU和DCT/IDCT DDCU(見圖2)。在起始平臺的基礎上添加這些運算單元,目的就是在不增大指令存儲或數據存儲的前提下,盡可能降低對時鐘速率(MHz)的要求。完成這些操作之后,我們得到了這樣一個用戶應用引擎,該引擎可以用帶寬只有18MHz的DSP完成每秒15幀的CIF格式圖像的解碼,同時還能滿足這種3G無線視頻應用的其他關鍵要求(低功率、小晶片尺寸以及低時鐘速率)。 從圖3中可以看出DDCU對加快整個應用運行速度的作用。圖中第一條表示在標準CU構成的基準平臺上,整個運算時間在IDCT、運動補償(MC)以及可變長度編碼和反量化(VLD/DQnt)這幾種DDCU之間的分布情況。 可以看出,在這幾種DDCU中,MC部分占用時鐘周期最多。因此我們在工作平臺上添加了一個DDCU來加速半像素內插操作,提高MC部分的速度。一旦MC部分所占用的時鐘周期數大幅降低,VLD/DQnt馬上就上升成為了限制整個應用性能的最主要因素。針對這一情況,再添加一個比特流 DDCU和一個量化/反量化DDCU,又進一步提高了性能。這樣,最初的基準平臺已經經過了兩次組合。此時,再將IDCT DDCU加入其中,整個應用的性能就得到了更大的提高。圖3中的最后一條給出了三次組合后整個應用需要耗費的時鐘周期。 上面介紹的只是一個典型案例。一般而言,在無線視頻應用的開發中,按照以上這幾步進行操作,我們就可以快速地構造一個優化的引擎,為移動電話或PDA設備開發出收發MPEG-4視頻信息的功能。更妙的是,在構造起這個引擎的同時還可以解放一部分處理器資源,使之有余力去支持其他的一些新興功能,比如MP3音頻、網絡瀏覽,甚至更多。 |