国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

新一代多核媒體處理器優化高清視頻應用

發布時間:2010-8-20 16:21    發布者:lavida
2010年一季度,LSI發布了新一代多核媒體處理器或基帶處理器:StarPro2704和StarPro2716(簡稱SP27xx)。LSI上一代多核媒體處理器StarPro2603和StarPro2612(簡稱SP26xx)已經在2G無線基帶及語音媒體網關上成功應用。SP27xx相比SP26xx,在媒體和基帶算法處理能力上有至少2倍的增強,同時在降低功耗方面加入了很多先進技術。針對運營商級和中小企業級的3G/4G無線基站、更高密度的語音媒體網關以及高清視頻服務器等方面的應用,SP27xx均能提供業界領先的高性能低功耗的解決方案。本文首先介紹SP27xx的新特性,然后著重分析SP27xx在高清視頻領域的應用。  

SP27xx體系結構  

SP2716是通過MCM多芯片封裝工藝將4個SP2704的裸片封裝成一個芯片,其處理能力是SP2704的4倍。相對于4個SP2704,SP2716大大放寬了對單板尺寸的限制,這使得用戶能夠更方便地擴展高端音視頻業務。下文重點介紹SP2704的體系結構。  

SP2704繼承了SP2603的體系構架,由2個基本模塊組成:媒體處理模塊(MPB)和包處理模塊(PPB)。媒體處理模塊主要由4個SC3400e的DSP子系統組成,而包處理模塊的核心是ARM11雙核處理器系統。在這種單芯片DSP+ARM的多核處理器結構中,數據面和控制面分別由DSP和ARM來處理,使得DSP可以最大程度地利用其運算優勢,同時不需要額外使用片外處理器來處理應用程協議,是最高效的音視頻媒體網關結構。  

SP2704擁有超大的片內內存,對于高密度語音網關和非高清視頻應用,一般不需要使用片外存儲區,這就最大程度地降低了成本和單板總功耗,減少了軟硬件設計復雜度,也放寬了單板尺寸的限制。此外,SP27xx采用了業界領先的40nm芯片工藝,還引入了許多先進的低功耗技術。以語音網關應用為例,SP27xx的每通道功耗遠遠低于業界其他同類芯片。  

1)DSP子系統(DSS)  

SP2704有4個頻率為750MHz的StarCore SC3400eDSP子系統(DSS)。相對上一代芯片SP2603,如果不考慮DSP內核能力的增強,SP2704的DSP處理能力可達SP2603的兩倍。每個DSS還包含內存保護單元(MPU),256KB本地零等待RAM,32KB一級指令高速緩存,32KB一級數據高速緩存,512KB L2高速緩存,兩個專用的2通道DMA控制器。  

2)包處理模塊(PPB)  

包處理模塊(PPB)是基于雙核ARM11 MP的子系統,工作頻率僅為DSS工作頻率的一半。PPB主要負責整個芯片加載和管理(包括ARM和DSP),以及輸入輸出數據包的管理。PPB還包括:ROM用于存放ARM Boot代碼,以及SPI/SSP、UART、NAND flash控制器接口,可為客戶提供多種Boot方式。  

3)豐富的片內內存和2個超高帶寬總線  

SP2704中有2個超高帶寬總線矩陣:DSP總線矩陣和PPB總線矩陣,可用作數據處理功能模塊的系統互連,以1/2DSP子系統時鐘速率運行,帶寬分別是128位和64位。SP2704擁有豐富的片內內存,除了DSP和ARM子系統內部的零等待RAM,還有一個6M的片內系統共享內存。共享內存分成12個存儲塊,不同的內核可以同時訪問不同的存儲塊,真正達到了數據訪問的高吞吐量、高可用性以及低時延。  

4) 豐富的接口資源  

SP2704擁有豐富的接口資源,可以滿足各種音視頻網關服務器應用:兩個10/100/1000/2500Mbps以太網MAC,可配置為FE(SS-SMII)或GE(SGMII);TDM處理模塊通過6個串行端口進行TDM流量的多路復用和解多路復用;10Gbps x4 sRIO接口(4個3.125Gbps Lane)或者配置為兩個獨立的x1SRIO接口;PCIe接口,可接到host或SP2704設備之間互聯;32位DDR3接口工作頻率高達1066MHz。  


  
圖1 SP2704媒體處理器體系結構。  

SC3400e---基于SC3400的增強  

SC3400e與SC3400后向兼容,SC3400e繼承了SC3400的變長指令集(VLES)結構和12級流水深度。SC3400e的能力增強表現在以下幾個方面:  

1)實數和復數乘加能力的增強  

SC3400e與SC3400的數據算術邏輯單元(DALU)都包含了4個乘加單元(MAC)。SC3400的MAC包含1個16位*16位的乘法器和1個40位的加法器;而SC3400e的MAC包含4個16位*16位的乘法器和2個40位的加法器,其加法器支持2個40位復數操作數的加/減法。實數乘加運算能力提高1倍,而復數乘加運算能力則是原來的4倍。  

SC3400e的實數和復數MAC運算能力可概括為:每周期可完成8個16位實數乘加運算,性能是SC3400的2倍;每周期可完成4個16位(16位實部,16位虛部)的復數乘加運算,性能是SC3400的4倍;每周期可完成8個8位(8位實部,8位虛部)的復數乘加運算,性能是SC3400的8倍;每周期可完成4個32位*16位的實數乘加運算,性能是SC3400的2倍;每周期可完成4個(16位*16位+16位*16位+40位)的實數點積運算。如果設置了飽和模式,A=sat{sat{A+BxC}+DxE},則性能是SC3400的2倍。  

2)在COF和控制代碼效率方面的改進  

SC3400采用先進的動態分支預測機制,可有效減少COF(Change of Flow)的延遲。例如,某條JMP指令已經在分支目標緩沖(BTB)中,實際執行只需要1個周期,而不是6個周期。SC3400e在原有的分析預測機制的基礎上,完成了多方面的改進。  

在SC3400e中,硬件循環和COF共同使用n個BTB,突破了SC3400中只支持4層嵌套的零開銷硬件循環的限制。而且,SC3400e還改進了硬件循環誤判的開銷,就算硬件循環條件不成立,開銷也只有3個周期,而在SC3400中這樣的開銷最多達6個周期;在SC3400e中,提高了短循環的執行效率,同時短循環不再占用BTB;SC3400e支持4個返回地址寄存器,相對SC3400中的一個返回地址寄存器,減少了子程序返回的平均延遲。總體看,相對SC3400,SC3400e控制代碼的效率提高了0.25倍。  


  
圖2 高清視頻編碼及解碼的多核功能分配示意圖。  

3) 查找表的性能提高  

在SC3400e中,帶有線性地址修改的指令1個周期就能完成。查找表的性能提高了0.5倍。  

4) SC3400e中改進的視頻加速指令  

SC3400e中改進的視頻加速指令主要包括:用于半像素插值的插值指令,性能提高1倍;用于運動補償的Add-and-Sat指令,性能提高1倍;1個周期完成位插入或位抽取操作。對于位流與字節之間的pack/unpack及其他位流處理算法,性能提高1倍。  

SP2704二級緩存的使用  

SP2704支持二級緩存(L2 cache):其中一級緩存(L1 cache)分成32k指令緩存和32K數據緩存,二級緩存可靈活用于片外程序和數據的緩存。對于高清視頻編解碼的應用,需要使用DDR3存儲器來存儲大量的視頻數據。這時,一般會配置二級緩存映射到DDR存儲空間。同時,如果再配置L1 cache緩存L2 cache的數據,對緩存進行合理的優化,會使片外的視頻數據讀寫效率更高。  

L2 cache還可以配置成共享內存,如果L2 cache配置成共享內存,6MB共享內存的空間就擴展為8MB。對于不需要放置片外存儲器的應用,一般會把L2 cache配置成共享內存,進一步增加數據和代碼的片內存儲空間。  

分層的多核編解碼器構架  

對于H.263或H.264的高清視頻編碼,一個DSP核無法完成1路圖像的編碼/解碼,因而需要由多個核協作完成,這就涉及到多核之間任務分配的問題。LSI目前采用靈活的多層編解碼構架,以片(slice)為基本單位對圖像進行分割,每個核處理一個或多個片。這樣,可以在多核之間擴展,也可以通過sRIO、PCIe等高速互連總線在多器件之間擴展。  

以1080P(1280*720)H.264的解碼和編碼為例,如果一個SP2704處理1路30fps 1080p H.264解碼,多個SP2704協同處理1路30fps 1080p H.264編碼,SP2704#1解碼后的YUV4:2:0的圖像數據提供給SP2704#2來進行編碼,參考幀數據將存放在DDR3存儲器中,如圖2所示。  

多核分層編碼器  

在協同處理1路圖像的多個核中,一個核作為主核,其他核為從核。主核除了要負責一些slice的編解碼之外,還要處理負荷平衡、場景識別及速率控制這樣的公共任務。其他從核將只是對分配的slice進行處理。  

多核分割可以減少高清視頻編碼的延遲,而動態負荷平衡功能可最大程度減少延遲。SP2704內部的4個DSP核可以通過6M的共享內存和DDR3片外存儲器來共享視頻數據:當前圖像存放在6M的共享內存中,通過L1數據cache緩存片內共享內存的圖像數據,參考圖像存放在DDR3外部存儲器中,通過L2 cache來緩存DDR3中的圖像數據。從而使得視頻數據訪問的速度達到最快。  

SP2716中的2個SP2704之間可以通過PCIe共享DDR3存儲器,這樣可減少2個SP2704之間的數據交互,從而簡化了軟件開發的復雜度,還將整個硬件設計所需的DDR3設備數量減少了一半。此外,多個SP2704器件之間通過sRIO接口來傳輸或共享視頻數據,這些SP2704都連接到sRIO開關上。每個器件都可以自發地寫入到其他任何一個器件的I/O空間。  

多核解碼器  

H.264解碼涉及串行操作和并行操作。熵解碼包含一系列串行操作,無法分配給多個內核并行處理,因而將由主核處理,其他并行操作可以分配到各個從核來處理。LSI分層解碼器的基本原理是:由主核負責熵解碼,再把熵解碼后的數據分配到各個從核來處理。其他從核讀取數據后進行后續處理,例如逆量化、逆變換等;對于P宏塊還要從DDR3中讀取參考幀數據并進行運動補償。最后進行循環濾波,并把得到的宏塊數據存入DDR3的當前幀中。
本文地址:http://m.qingdxww.cn/thread-22877-1-1.html     【打印本頁】

本站部分文章為轉載或網友發布,目的在于傳遞和分享信息,并不代表本網贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問題,我們將根據著作權人的要求,第一時間更正或刪除。
您需要登錄后才可以發表評論 登錄 | 立即注冊

廠商推薦

  • Microchip視頻專區
  • 使用SAM-IoT Wx v2開發板演示AWS IoT Core應用程序
  • 使用Harmony3加速TCP/IP應用的開發培訓教程
  • 集成高級模擬外設的PIC18F-Q71家族介紹培訓教程
  • 探索PIC16F13145 MCU系列——快速概覽
  • 貿澤電子(Mouser)專區
關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯系我們
電子工程網 © 版權所有   京ICP備16069177號 | 京公網安備11010502021702
快速回復 返回頂部 返回列表
主站蜘蛛池模板: 四虎地址| 好看的电影网站亚洲一区| 蜜芽手机在线观看| 色橹橹欧美在线观看高清视频| 欧美精品亚洲精品日韩| 天天综合网色| 亚洲精品在线免费看| 高清大胆欧美videossexo| 一二三四国语在线观看| 亚洲国产精品综合久久2007| 超碰公开在线caopon| 亚洲成人一区| 色综合欧美| 无码国产成人午夜在线观看不卡| 99福利视频| 亚洲狼人天堂| 国产精品久久久久久免费播放 | 亚洲AV一宅男色影视| 四虎免费网站| 亚洲高清视频在线播放| 一级视频免费观看| 久久婷婷五月免费综合色啪| 特级毛片免费视频| 日本在线视频免费| 五月婷婷在线免费观看| 成人免费视频无遮挡在线看| 午夜福利免费院| 午夜在线精品不卡国产| 亚洲大片在线观看| 这里只有精品视频在线观看| 男人的天堂黄色片| 欧美久久综合九色综合| 四虎永久网址影院| 艳妇与粗巨茎| 美女扒开尿口让男生添动态图| 一级片免费看| 日日夜夜狠狠| 亚洲麻豆精品果冻传媒| 黑人 尺寸 强行害怕 痛哭| 日本久久久久中文字幕| 日产精品久久久一区二区|