賽靈思SDAccel開發環境為內存限制問題提供優化方法 作者: Jasmina Vasiljevic 多倫多大學研究員 vasilijev@eecg.toronto.edu Fernando Martinez Vallina博士 賽靈思公司軟件開發經理 vallina@xilinx.com 視頻流和下載通常會耗掉消費者絕大部分互聯網流量,同時也是云計算技術發展的主要推動力。對視頻流和下載需求的持續增長,正在驅動視頻處理應用邁出專業系統領域,步入數據中心。這一應用模式的轉變需要具備快速擴展能力的計算節點來滿足視頻內容制作和分發的各個不同高計算強度階段的需求,如轉碼需求和水印需求。 我們近期使用賽靈思SDAccel開發環境來編譯和優化專為FPGA加速卡采用OpenCL編寫的視頻水印應用。視頻內容提供商使用水印起到廣告和內容保護的作用。我們的目的是設計一種能處理運行在Alpha Data ADM-PCIE-7V3卡上,吞吐量為30fps,分辨率為1080p的高清(HD)視頻的水印應用。 SDAccel開發環境能讓設計人員先用OpenCL編寫應用,然后在無需了解底層FPGA實現工具的情況下把應用編譯到FPGA中。可以以這種視頻水印應用為例來介紹SDAccel中的主要優化技巧。 帶標識插入功能的視頻水印 該視頻水印算法的主要功能是在視頻流的特定位置覆蓋一個標識。用于水印的標識可以是活動的,也可以是靜止的;顒訕俗R一般采用簡短的重復性視頻片段來實現,靜止標識則采用靜止圖像。 廣播企業宣傳自己視頻流最常用的方法是把企業標識用作靜止水印,因此成為我們實例設計的目標。該應用根據下列等式,以逐像素粒度插入靜止標識。 ![]() 輸入和輸出幀為二維陣列,像素使用YCbCr色域表達。在該色域中,每個像素用三個分量表達。Y表示亮度分量,Cb表示色度藍色色差分量,Cr表示色度紅色色差分量。每個分量都用一個8位值表達,因為每個像素為24位。 該標識是一個包含待插入內容的二維圖像。掩膜也是一個圖像,但只包含標識的輪廓圖。掩膜的像素可以是白色或黑色。掩膜的白色像素表示標識的插入位置,黑色像素則表示原始像素未被觸及的地方。圖1所示的,就是這種視頻水印算法的運算方式實例。 目標系統和初始實現方案 我們運行該應用的系統如圖2所示。該系統由Alpha Data ADMPCIE-7V3卡組成,該卡通過PCIe®鏈路與x86處理器通信。在該系統中,主機處理器從磁盤提取輸入視頻流,將其傳輸到設備全局內存中。設備全局內存位于FPGA卡上,可供FPGA直接訪問。除把視頻幀存放到設備全局內存中外,標識和掩膜也從主機傳輸到FPGA加速器卡上并存入片上內存中,以充分利用BRAM內存的低時延優勢。因為本應用使用的是一個靜止標識,只需在片上內存中存儲靜止圖像和布局位置數據。 ![]() 圖1 - 工作中的視頻水印算法 ![]() 圖2 - 視頻水印應用系統總覽圖 創建數據后,主機處理器會給FPGA架構中的水印內核發送一個啟動信號。該信號觸發內核完成三件工作:開始從設備全局內存獲取輸入視頻幀;在掩膜定義的位置插入標識;將處理過的幀傳輸回設備全局處理器,等待處理器調用。 視頻流中每幀的數據傳輸與計算的協調工作使用圖3所示的代碼完成。 該代碼運行在主機處理器上,負責發送視頻幀到FPGA加速器卡,啟動加速器,然后從FPGA加速器卡取回處理后的幀。 FPGA水印算法的首個實現方案如圖4所示。這是一個功能正確的應用實現方案,但沒有進行任何性能優化或為充分利用FPGA架構的功能進行考慮。因此該代碼在SDAccel中編譯完成后,在Alpha Data卡上運行得到的最大吞吐量僅為0.5fps。 從圖4的代碼中可以看到,這種水印算法不是一種高計算強度的設計。大多數時間花在訪問內存,讀取和寫入視頻幀上。因此我們在優化實例設計時,把重點放在優化內存帶寬上。 使用矢量化優化內存訪問 與其他軟件可編程架構相比,FPGA架構的優勢之一在于靈活性強,能配置連接內存的總線。SDAccel能根據具體的應用內核創建用于連接內存的定制化數據路徑和架構。通過修改代碼,一次可以處理多個像素,從而能夠從內核中調用更高的內存帶寬。這個過程稱之為矢量化。 矢量化的程度是否合適,取決于具體應用和所使用的FPGA加速器卡。以Alpha Data卡為例,設備全局內存接口寬度為512位,這與SDAccel為內核提供的最大AXI互聯寬度一致。鑒于最大帶寬為512位,該應用調整為每次處理20個像素(24位/像素×20像素=504位)。SDAccel完全支持矢量數據類型。因此就本應用而言,代碼的矢量化非常簡單,就是把所有陣列的數據類型修改為char20(如圖5所示),這樣吞吐量就能達到12fps。 使用突發模式優化內存訪問 雖然矢量化能顯著改善應用性能,但仍不足以實現30fps的吞吐量目標。該應用仍然受內存局限,因為內核每次只能向內存傳輸20個像素。為減輕內存限制對應用造成的影響,我們不得不修改內核代碼,以生成到內存的突發讀取/寫入操作,從而實現大于20個像素的數據集。修改后的內核代碼見圖6。 代碼內核首先修改的是在內核中定義片上存儲,以便每次存儲像素塊。片上內存用內核代碼中聲明的陣列來定義。為啟動到內存的突發事務處理,該代碼實例化memcpy命令,以將數據塊從DDR移到內核內的BRAM存儲系統中。根據片上內存資源的大小和待處理數據的量,一個視頻幀可分割成20個1920×54像素塊(如圖7所示)。 當memcry命令把數據塊放置到內核陣列中,該算法就會在數據塊上執行水印算法,然后把結果放回內核陣列。數據塊處理的結果隨后使用memcry命令傳送回DDR內存。反復執行這個操作20次,直至給定幀中所有的數據塊處理完畢。通過修改內核代碼,系統性能達到了38fps,超過了既定的30fps目標。 ![]() 圖3 - 用于協調每幀數據傳輸和計算的代碼 ![]() 圖4 - 水印內核的初始實現方案 ![]() 圖5 - 矢量化后的內核代碼 ![]() 圖6 - 針對突發數據傳輸優化的內核代碼 應用前景廣泛 使用SDAccel開發本文介紹的這類應用時所進行的必要優化屬于軟件優化。因此這些優化工作與從其他處理架構中(如GPU)獲取性能所開展的優化類似。使用SDAccel后,讓PCIe鏈路工作、驅動程序、IP布局和互聯等細節都不是問題,使我們就像設計人員一樣只需集中精力開發目標應用。 我們在水印應用中所做的優化適用于使用SDAccel編譯過的所有應用。事實上視頻水印應用就是一個很棒的技巧講解案例,詳細介紹了賽靈思SDAccel中推出的優化方法。 ![]() 圖7 - 把視頻幀分區成數據塊 |