在智能移動(dòng)終端產(chǎn)業(yè)一派繁榮的景象之下,CPU處理器的發(fā)展已幾近極限,而移動(dòng)端對(duì)于 GPU圖形處理器的性能需求卻遠(yuǎn)遠(yuǎn)沒(méi)有停止。根據(jù)市調(diào)機(jī)構(gòu)Jon Peddie Research針對(duì)2013年上半年個(gè)人移動(dòng)設(shè)備(智能手機(jī)、平板電腦以及掌上游戲機(jī)等)GPU出貨量情況的統(tǒng)計(jì),由于獲得蘋(píng)果與三星等應(yīng)用處理器的采用,Imagination Technologies公司以37.6%的市場(chǎng)占有率位居IP供應(yīng)商的第一位;高通以及IP授權(quán)商ARM、Vivante則緊隨其后。![]() 各移動(dòng)GPU供應(yīng)商的市占率統(tǒng)計(jì) 與此同時(shí),近一年來(lái),移動(dòng)GPU市場(chǎng)正處于飛速發(fā)展之中,特別是從去年下半年開(kāi)始,各大廠商紛紛加大了對(duì)移動(dòng)GPU市場(chǎng)的布局力度:去年年底,ARM同時(shí)推出了兩款分別針對(duì)高端市場(chǎng)和入門(mén)級(jí)應(yīng)用的移動(dòng)GPU(Mali-T760與T720);今年初,Imagination則推出了高端系列PowerVR Series6XT GPU和入門(mén)級(jí)Series6XE GPU;Vivante發(fā)布了基于Vega技術(shù)、可有效處理4K媒體的GPU IP內(nèi)核(GC7000);高通大力宣傳自己的下一代移動(dòng)GPU Adreno 420,并已用于驍龍805上;NVIDIA發(fā)布的Tagra K1首次把PC級(jí)的GPU搭載到了移動(dòng)處理器上。所有跡象表明,在不同公司的企業(yè)經(jīng)營(yíng)策略之下,移動(dòng)GPU市場(chǎng)正呈現(xiàn)出日益激烈的市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì),更多具有鮮明個(gè)性化特色的芯片方案將不斷涌現(xiàn)在市場(chǎng)之上。 克服移動(dòng)運(yùn)行環(huán)境的局限 對(duì)比應(yīng)用在PC上的GPU性能,ARM公司多媒體處理器事業(yè)部市場(chǎng)營(yíng)銷副總裁Dennis Laudick認(rèn)為,GPU在移動(dòng)設(shè)備運(yùn)作環(huán)境中與在PC中是全然不同的。例如,應(yīng)用在PC上的GPU可以通過(guò)一個(gè)AC電源獲取到大量的電力,并通過(guò)非常高功耗PCI等接口連接到大量的內(nèi)存帶寬,這樣的例子不勝枚舉。因此,在PC環(huán)境中開(kāi)發(fā)的技術(shù)并不會(huì)去考慮功率/面積/熱/帶寬等限制,而是更加直接地藉由越來(lái)越多的電力和資源來(lái)提高性能。 “但在移動(dòng)環(huán)境中的GPU則正好相反,它必須要面對(duì)各種不同的約束。在移動(dòng)的環(huán)境下,電源供電是一個(gè)巨大的問(wèn)題,從最初設(shè)計(jì)開(kāi)始,GPU(或處理器)就需要考慮功耗問(wèn)題,這需要充足的專業(yè)技能,才能從運(yùn)行環(huán)境中獲得最大化的性能。另外,移動(dòng)設(shè)備的環(huán)境也存在帶寬的限制,必須在設(shè)計(jì)出令人難以置信的輕巧電源的同時(shí),還要能為用戶提供良好的產(chǎn)品性能和應(yīng)用體驗(yàn)。”因而從根本上講,在PC與移動(dòng)設(shè)備上的GPU是完全不同的運(yùn)作形式,PC中的GPU一般采用簡(jiǎn)單、全屏、“立即模式”的渲染方式;而移動(dòng)設(shè)備的GPU則采取分塊渲染等更節(jié)能的技術(shù),讓龐大的任務(wù)處理更加智能化,以確保用盡每一“滴”能效。 從工作模式上,Imagination Technologies公司PowerVR多媒體業(yè)務(wù)總監(jiān)Peter McGuinness更為詳細(xì)的介紹道,PC機(jī)GPU在傳統(tǒng)上純粹以性能為導(dǎo)向,而移動(dòng)GPU則是為高效率和低功耗所設(shè)計(jì)的。桌面GPU是典型的提前Z(early-Z buffer)運(yùn)行模式,通過(guò)冷卻機(jī)制來(lái)解決功耗問(wèn)題;移動(dòng)GPU大多基于分塊渲染模式,將內(nèi)存流量和功耗保持在最低水平。一些移動(dòng)GPU主要依靠運(yùn)行提前Z模式來(lái)篩選出可見(jiàn)目標(biāo),但這種方式可能會(huì)占用大量的面積和功耗。Imagination推出的 PowerVR則采用延遲分塊渲染的模式,僅計(jì)算并呈現(xiàn)可見(jiàn)的目標(biāo)、而省略被遮擋的不可見(jiàn)目標(biāo)元素,從而擁有獨(dú)特的性能優(yōu)勢(shì)。 低功耗、小面積設(shè)計(jì)至關(guān)重要 談到移動(dòng)GPU最引人關(guān)注的低功耗問(wèn)題,Laudick說(shuō)道:“低功耗并非只是一種方法或應(yīng)用到產(chǎn)品以及設(shè)計(jì)的一些技巧,它必須在產(chǎn)品設(shè)計(jì)之初就深植于設(shè)計(jì)人員與產(chǎn)品規(guī)劃的思考核心。這意味著,很多設(shè)計(jì)準(zhǔn)則與基本架構(gòu)有關(guān),然而,有些設(shè)計(jì)準(zhǔn)則卻是通過(guò)外部接口來(lái)實(shí)現(xiàn)、又或是一些在設(shè)計(jì)上特定的先進(jìn)技術(shù)上去節(jié)省功耗。”為了克服移動(dòng)設(shè)備對(duì)GPU先天上的限制,ARM一直在尋找在小面積和有限的功耗內(nèi)提升處理能力更有效而智能的方式。其中,ASTC紋理壓縮技術(shù)就是一項(xiàng)源自ARM圖像質(zhì)量方面先進(jìn)的技術(shù),能減少內(nèi)存帶寬和功耗,這項(xiàng)技術(shù)已經(jīng)被主要的移動(dòng)GPU芯片供貨商所采用。 另外,ARM還開(kāi)發(fā)出一系列先進(jìn)技術(shù),進(jìn)一步提升產(chǎn)品性能。如:智能合成技術(shù)用于減少帶寬,可同時(shí)在幀結(jié)構(gòu)中讀取紋理;智能消除技術(shù)可實(shí)現(xiàn)關(guān)鍵的節(jié)省帶寬功能,在SoC層級(jí)達(dá)到顯著的低能耗效果,而GPU在渲染的過(guò)程中,在幀與幀之間只會(huì)就不同的部分進(jìn)行渲染;幀緩沖壓縮格式是一種無(wú)損圖像的壓縮技術(shù),允許通過(guò)減少SoC內(nèi)部IP模塊之間傳輸?shù)臄?shù)據(jù)量,大幅減少帶寬的消耗;像素本地存儲(chǔ)技術(shù)是最近在SIGGRAPH世界圖形圖像學(xué)術(shù)大會(huì)上所展示的另一種技術(shù),能藉由減少對(duì)先進(jìn)圖形算法的帶寬需求,達(dá)到低功耗的效果。 得益于專為真實(shí)世界應(yīng)用案例所設(shè)計(jì)的低功耗特性集,Imagination新推出的PowerVR Series6XT和Series6XE系列均基于PowerVR Rogue圖形架構(gòu)所帶來(lái)的大量獨(dú)特特性,以改進(jìn)整體系統(tǒng)性能,降低功耗,并減少內(nèi)存帶寬。McGuinness分析道:“首先,PowerVR Rogue GPU采用標(biāo)量處理,實(shí)現(xiàn)ALU的最高利用率并簡(jiǎn)化圖形編程,這一架構(gòu)效率對(duì)于優(yōu)化圖像處理算法十分必要,很多算法拒絕將色彩信息作為第一步,并只處理強(qiáng)度信息,而這在標(biāo)量架構(gòu)中完全不是問(wèn)題。其次,我們?cè)黾恿诵碌腜VR3C三倍壓縮技術(shù),結(jié)合了有損紋理壓縮、無(wú)損圖像壓縮和無(wú)損幾何壓縮技術(shù),降低內(nèi)存帶寬,且反過(guò)來(lái)更加顯著地影響了系統(tǒng)范圍的功耗。第三,系統(tǒng)增加的PowerGearing功能可動(dòng)態(tài)管理不同的功耗水平,并平衡整體SoC功耗,所有的Rogue GPU結(jié)合使用FP32和FP16 ALU,實(shí)現(xiàn)了高精度和低功耗運(yùn)算,與上一代GPU相比,PowerVR Series6XT和6XE GPU擁有高達(dá)50%的更多低能耗GFLOPS(每秒執(zhí)行浮點(diǎn)運(yùn)算次數(shù))。” ![]() Imagination公司移動(dòng)GPU發(fā)展路線圖 除此之外,對(duì)于瞄準(zhǔn)入門(mén)級(jí)平臺(tái)的芯片供應(yīng)商來(lái)說(shuō),生產(chǎn)更大面積的SoC系統(tǒng)級(jí)芯片意味著成本的提高,因此,處理器芯片的面積也變得越來(lái)越重要。為了解決這一問(wèn)題,Imagination可以為合作伙伴提供優(yōu)化設(shè)計(jì)工具(DOKs),為各種特定應(yīng)用實(shí)現(xiàn)性能、功耗和面積之間的理想平衡。例如,Imagination與美國(guó)新思科技公司共同開(kāi)發(fā)的第一款優(yōu)化設(shè)計(jì)工具可為PowerVR Series6 GPU芯片節(jié)省高達(dá)30%的面積,并且同時(shí)還能顯著降低動(dòng)態(tài)功耗。 GPU與CPU協(xié)作成主流趨勢(shì) 在對(duì)近期移動(dòng)終端市場(chǎng)的觀察中,Laudick指出,一個(gè)有趣的現(xiàn)象是,市場(chǎng)上設(shè)備所具備的多媒體功能越來(lái)越受到人們的關(guān)注。例如:攝像功能不但是大部分移動(dòng)終端產(chǎn)品的標(biāo)準(zhǔn)配置之一,而且設(shè)備處理圖像、視頻等多媒體的性能也正在成為影響消費(fèi)者購(gòu)買產(chǎn)品的一個(gè)重要因素。在這些多媒體應(yīng)用中涉及到大量像素處理任務(wù),這一方面可以在CPU上完成,而另一方面,圖像處理和視覺(jué)計(jì)算的任務(wù)類型具有并行特性,也意味著它們非常適合通過(guò)GPU來(lái)運(yùn)行,有助于加快任務(wù)處理速度,同時(shí)顯著降低功耗。 “我們需要用不同的角度來(lái)看GPU,它不再只是針對(duì)圖形處理方面,而是作為整個(gè)系統(tǒng)的一個(gè)組成部分。特別是在現(xiàn)有CPU所面臨到的節(jié)能挑戰(zhàn)中,尋找GPU可以用來(lái)作為一部分解決方案的可能性,將是未來(lái)的一個(gè)主要方向。”Laudick說(shuō)。為此,實(shí)現(xiàn)在GPU和CPU的指令執(zhí)行間共享數(shù)據(jù)的能力,是一種較為理想的解決途徑。這種方案通過(guò)緩存一致性以及虛擬內(nèi)存共享,得以實(shí)現(xiàn)CPU與GPU之間的指針交換,由此消除復(fù)制或緩存維護(hù)操作,這樣,GPU可以更多地被用于加速更小型任務(wù)的計(jì)算能力,使其適合更廣范圍的算法。 作為異質(zhì)運(yùn)算架構(gòu)基金會(huì)(HAS Foundation)的創(chuàng)始成員,ARM正參與制定此類特性設(shè)計(jì)所須遵循的標(biāo)準(zhǔn),并引入到其GPU和CPU的產(chǎn)品設(shè)計(jì)中。除了Mali-T600系列(業(yè)界首款可提供OpenGL ES 3.0功能的移動(dòng)GPU)之外,ARM推出的Mali-T760 GPU可擴(kuò)展性達(dá)到16個(gè)內(nèi)核,是專門(mén)為解決高性能、高端移動(dòng)計(jì)算的市場(chǎng)需求而設(shè)計(jì),這類市場(chǎng)的特點(diǎn)是更大的屏幕尺寸、需要處理更復(fù)雜的內(nèi)容、更高的能源效率、在每毫瓦的消耗中追求性能最大化。而一款Mali-T720 GPU則主要為了滿足SoC制造商針對(duì)入門(mén)級(jí)移動(dòng)計(jì)算設(shè)備市場(chǎng)的需求。 移動(dòng)設(shè)備的性能越來(lái)越取決于不同的系統(tǒng),尤其是CPU和GPU的相關(guān)能力,這使得最佳的工作負(fù)荷分配顯得十分重要。通常最好的處理辦法是將工作量分成最大可能的幾個(gè)部分,以減少系統(tǒng)開(kāi)銷。McGuinness同樣表示道:“移動(dòng)設(shè)備如今正在被內(nèi)在異構(gòu)的應(yīng)用程序所主導(dǎo),這些應(yīng)用程序包含功能層,這些功能層可以在CPU陣列和GPU之間被劃分GPU被歸類為一個(gè)單核,但是事實(shí)上它本身包含一個(gè)大型陣列,并因此實(shí)現(xiàn)更好的效率。通過(guò)在所有可用資源中更高效地分配任務(wù),轉(zhuǎn)化成一個(gè)更高的幀率或更低的功耗或更快的響應(yīng)能力,或者三者兼得。”例如,一個(gè)VP9視頻解碼器的軟件運(yùn)行方式可以被分解,這樣代碼的特定部分可以運(yùn)行在一個(gè)四核的CPU上,同時(shí)算法的計(jì)算密集部分可以由一個(gè)PowerVR Rogue GPU 處理。這一異構(gòu)解決方案雖然沒(méi)有明顯降低功耗,但顯著維持了高度優(yōu)化的CPU代碼的幀率,這樣處理的好處在于:當(dāng)解碼器是在基于瀏覽器的應(yīng)用程序內(nèi)被運(yùn)行時(shí),用戶將享受更大的可用性、更高的分辨率、更短間隔的CPU周期,且用戶界面的響應(yīng)能力也會(huì)獲得明顯的改善。 |