在智能移動終端產業一派繁榮的景象之下,CPU處理器的發展已幾近極限,而移動端對于 GPU圖形處理器的性能需求卻遠遠沒有停止。根據市調機構Jon Peddie Research針對2013年上半年個人移動設備(智能手機、平板電腦以及掌上游戲機等)GPU出貨量情況的統計,由于獲得蘋果與三星等應用處理器的采用,Imagination Technologies公司以37.6%的市場占有率位居IP供應商的第一位;高通以及IP授權商ARM、Vivante則緊隨其后。 各移動GPU供應商的市占率統計 與此同時,近一年來,移動GPU市場正處于飛速發展之中,特別是從去年下半年開始,各大廠商紛紛加大了對移動GPU市場的布局力度:去年年底,ARM同時推出了兩款分別針對高端市場和入門級應用的移動GPU(Mali-T760與T720);今年初,Imagination則推出了高端系列PowerVR Series6XT GPU和入門級Series6XE GPU;Vivante發布了基于Vega技術、可有效處理4K媒體的GPU IP內核(GC7000);高通大力宣傳自己的下一代移動GPU Adreno 420,并已用于驍龍805上;NVIDIA發布的Tagra K1首次把PC級的GPU搭載到了移動處理器上。所有跡象表明,在不同公司的企業經營策略之下,移動GPU市場正呈現出日益激烈的市場競爭態勢,更多具有鮮明個性化特色的芯片方案將不斷涌現在市場之上。 克服移動運行環境的局限 對比應用在PC上的GPU性能,ARM公司多媒體處理器事業部市場營銷副總裁Dennis Laudick認為,GPU在移動設備運作環境中與在PC中是全然不同的。例如,應用在PC上的GPU可以通過一個AC電源獲取到大量的電力,并通過非常高功耗PCI等接口連接到大量的內存帶寬,這樣的例子不勝枚舉。因此,在PC環境中開發的技術并不會去考慮功率/面積/熱/帶寬等限制,而是更加直接地藉由越來越多的電力和資源來提高性能。 “但在移動環境中的GPU則正好相反,它必須要面對各種不同的約束。在移動的環境下,電源供電是一個巨大的問題,從最初設計開始,GPU(或處理器)就需要考慮功耗問題,這需要充足的專業技能,才能從運行環境中獲得最大化的性能。另外,移動設備的環境也存在帶寬的限制,必須在設計出令人難以置信的輕巧電源的同時,還要能為用戶提供良好的產品性能和應用體驗。”因而從根本上講,在PC與移動設備上的GPU是完全不同的運作形式,PC中的GPU一般采用簡單、全屏、“立即模式”的渲染方式;而移動設備的GPU則采取分塊渲染等更節能的技術,讓龐大的任務處理更加智能化,以確保用盡每一“滴”能效。 從工作模式上,Imagination Technologies公司PowerVR多媒體業務總監Peter McGuinness更為詳細的介紹道,PC機GPU在傳統上純粹以性能為導向,而移動GPU則是為高效率和低功耗所設計的。桌面GPU是典型的提前Z(early-Z buffer)運行模式,通過冷卻機制來解決功耗問題;移動GPU大多基于分塊渲染模式,將內存流量和功耗保持在最低水平。一些移動GPU主要依靠運行提前Z模式來篩選出可見目標,但這種方式可能會占用大量的面積和功耗。Imagination推出的 PowerVR則采用延遲分塊渲染的模式,僅計算并呈現可見的目標、而省略被遮擋的不可見目標元素,從而擁有獨特的性能優勢。 低功耗、小面積設計至關重要 談到移動GPU最引人關注的低功耗問題,Laudick說道:“低功耗并非只是一種方法或應用到產品以及設計的一些技巧,它必須在產品設計之初就深植于設計人員與產品規劃的思考核心。這意味著,很多設計準則與基本架構有關,然而,有些設計準則卻是通過外部接口來實現、又或是一些在設計上特定的先進技術上去節省功耗。”為了克服移動設備對GPU先天上的限制,ARM一直在尋找在小面積和有限的功耗內提升處理能力更有效而智能的方式。其中,ASTC紋理壓縮技術就是一項源自ARM圖像質量方面先進的技術,能減少內存帶寬和功耗,這項技術已經被主要的移動GPU芯片供貨商所采用。 另外,ARM還開發出一系列先進技術,進一步提升產品性能。如:智能合成技術用于減少帶寬,可同時在幀結構中讀取紋理;智能消除技術可實現關鍵的節省帶寬功能,在SoC層級達到顯著的低能耗效果,而GPU在渲染的過程中,在幀與幀之間只會就不同的部分進行渲染;幀緩沖壓縮格式是一種無損圖像的壓縮技術,允許通過減少SoC內部IP模塊之間傳輸的數據量,大幅減少帶寬的消耗;像素本地存儲技術是最近在SIGGRAPH世界圖形圖像學術大會上所展示的另一種技術,能藉由減少對先進圖形算法的帶寬需求,達到低功耗的效果。 得益于專為真實世界應用案例所設計的低功耗特性集,Imagination新推出的PowerVR Series6XT和Series6XE系列均基于PowerVR Rogue圖形架構所帶來的大量獨特特性,以改進整體系統性能,降低功耗,并減少內存帶寬。McGuinness分析道:“首先,PowerVR Rogue GPU采用標量處理,實現ALU的最高利用率并簡化圖形編程,這一架構效率對于優化圖像處理算法十分必要,很多算法拒絕將色彩信息作為第一步,并只處理強度信息,而這在標量架構中完全不是問題。其次,我們增加了新的PVR3C三倍壓縮技術,結合了有損紋理壓縮、無損圖像壓縮和無損幾何壓縮技術,降低內存帶寬,且反過來更加顯著地影響了系統范圍的功耗。第三,系統增加的PowerGearing功能可動態管理不同的功耗水平,并平衡整體SoC功耗,所有的Rogue GPU結合使用FP32和FP16 ALU,實現了高精度和低功耗運算,與上一代GPU相比,PowerVR Series6XT和6XE GPU擁有高達50%的更多低能耗GFLOPS(每秒執行浮點運算次數)。” Imagination公司移動GPU發展路線圖 除此之外,對于瞄準入門級平臺的芯片供應商來說,生產更大面積的SoC系統級芯片意味著成本的提高,因此,處理器芯片的面積也變得越來越重要。為了解決這一問題,Imagination可以為合作伙伴提供優化設計工具(DOKs),為各種特定應用實現性能、功耗和面積之間的理想平衡。例如,Imagination與美國新思科技公司共同開發的第一款優化設計工具可為PowerVR Series6 GPU芯片節省高達30%的面積,并且同時還能顯著降低動態功耗。 GPU與CPU協作成主流趨勢 在對近期移動終端市場的觀察中,Laudick指出,一個有趣的現象是,市場上設備所具備的多媒體功能越來越受到人們的關注。例如:攝像功能不但是大部分移動終端產品的標準配置之一,而且設備處理圖像、視頻等多媒體的性能也正在成為影響消費者購買產品的一個重要因素。在這些多媒體應用中涉及到大量像素處理任務,這一方面可以在CPU上完成,而另一方面,圖像處理和視覺計算的任務類型具有并行特性,也意味著它們非常適合通過GPU來運行,有助于加快任務處理速度,同時顯著降低功耗。 “我們需要用不同的角度來看GPU,它不再只是針對圖形處理方面,而是作為整個系統的一個組成部分。特別是在現有CPU所面臨到的節能挑戰中,尋找GPU可以用來作為一部分解決方案的可能性,將是未來的一個主要方向。”Laudick說。為此,實現在GPU和CPU的指令執行間共享數據的能力,是一種較為理想的解決途徑。這種方案通過緩存一致性以及虛擬內存共享,得以實現CPU與GPU之間的指針交換,由此消除復制或緩存維護操作,這樣,GPU可以更多地被用于加速更小型任務的計算能力,使其適合更廣范圍的算法。 作為異質運算架構基金會(HAS Foundation)的創始成員,ARM正參與制定此類特性設計所須遵循的標準,并引入到其GPU和CPU的產品設計中。除了Mali-T600系列(業界首款可提供OpenGL ES 3.0功能的移動GPU)之外,ARM推出的Mali-T760 GPU可擴展性達到16個內核,是專門為解決高性能、高端移動計算的市場需求而設計,這類市場的特點是更大的屏幕尺寸、需要處理更復雜的內容、更高的能源效率、在每毫瓦的消耗中追求性能最大化。而一款Mali-T720 GPU則主要為了滿足SoC制造商針對入門級移動計算設備市場的需求。 移動設備的性能越來越取決于不同的系統,尤其是CPU和GPU的相關能力,這使得最佳的工作負荷分配顯得十分重要。通常最好的處理辦法是將工作量分成最大可能的幾個部分,以減少系統開銷。McGuinness同樣表示道:“移動設備如今正在被內在異構的應用程序所主導,這些應用程序包含功能層,這些功能層可以在CPU陣列和GPU之間被劃分GPU被歸類為一個單核,但是事實上它本身包含一個大型陣列,并因此實現更好的效率。通過在所有可用資源中更高效地分配任務,轉化成一個更高的幀率或更低的功耗或更快的響應能力,或者三者兼得。”例如,一個VP9視頻解碼器的軟件運行方式可以被分解,這樣代碼的特定部分可以運行在一個四核的CPU上,同時算法的計算密集部分可以由一個PowerVR Rogue GPU 處理。這一異構解決方案雖然沒有明顯降低功耗,但顯著維持了高度優化的CPU代碼的幀率,這樣處理的好處在于:當解碼器是在基于瀏覽器的應用程序內被運行時,用戶將享受更大的可用性、更高的分辨率、更短間隔的CPU周期,且用戶界面的響應能力也會獲得明顯的改善。 |