作者: 意法·愛立信 Marco Cornero 我們正處于移動計算時代的過渡期,每天都有令人震撼的設備發布,移動計算性能不斷提高,令人充滿期待。 移動平臺目前正在經歷如PC機之前一樣的演變路線:單核處理器的頻率一路攀升,達到最大允許功耗的極限;為了繼續提升計算性能,并保持合理的功耗,處理器廠商又推出了多核處理器。 意法·愛立信早在2009年就推出了雙核處理器平臺,是第一批推出雙核處理器的芯片廠商,其NovaThor平臺開發計劃也是基于ARM雙核處理器。根據公司的分析報告,現有的軟件以及近期上市的軟件還不能充分發揮四核技術的優勢。從最高可達頻率和內存訪問開銷角度看,增加內核不是沒有代價的。只有很好地平衡加核做法與軟件運行能力,才能充分利用加核后所提升的硬件并行處理能力。 本文將通過對比的方式探討頻率較高的雙核架構與頻率較低的四核架構的優缺點。不過,芯片技術和軟件處理的折衷解決方案正在迅速發展,而且,愛立信也將根據技術未來發展趨勢調整產品計劃。在本文中,我們把討論的焦點放在性能上,功耗問題只稍加提示。事實上,在執行高性能任務時,四核處理器的頻率和電壓都較低,因此節能省電效果更好;但是,如果不執行高性能任務,四核就失去了省電的特色。 多核是需要有代價的 目前大多數最新的移動平臺所使用的多核架構是對稱多核處理系統(Symmetric Multi Processing, SMP),其特點是多個內核完全相同,且訪問系統資源(包括內存)面臨相同的開銷。此外,運行SMP功能的操作系統的基本需求是多核必須共享一個內存空間。為確保多個物理內存之間的一致性來實現共享內存空間,還需要配備專用電路。在今天的多核處理器中,每個內核都有各自的一級高速緩存,每個內核的一級高速緩存必須保持相互一致,而且還要與唯一的多核共用的二級高速緩存保持一致。內存一致性硬件位于高速緩存的重要運行通道內,因此,該硬件在很大程度上決定了多核架構的擴展性。增加內核不可避免地導致一致性協議的額外管理,產生額外的延遲,從而對性能造成負面影響。這就是為什么SMP架構不能無限地擴展的原因,即使在超級計算機上, 也不能無限擴展。 不斷增加的1級/2級高速緩存數據流量和共用2級高速緩存而產生的數據擁堵問題也限制了多核處理技術的擴展性能。每增加一個內核,就需要更大的芯片面積和更高的2級高速緩存容量。這進一步增加了芯片布局限制,并在內存分層結構內部引起訪問延遲。 意法·愛立信的實驗表明,對于典型負載,當處理器從雙核變成四核時,每增加一個內核,每核性能將會受到25-30%影響,雖然這是內核頻率損失和在系統的不同部分浪費更多的時鐘周期的綜合影響,但是,我們可以將其簡化為等效的頻率降低。 軟件的擴展性 只有把軟件設計成并行運行才能充分發揮多核處理器的優勢。軟件并行應用分為兩類:并行應用軟件和多任務處理。并行應用遵循著名的Amdahl定律,如方程式1所示: 如果處理器數量N給定,我們利用這個方程式可以確定一個應用軟件能夠取得的最高加速比S,其中P代表并行運行應用在軟件中所占的百分比,即P隨著處理器數量增加而線性提高((1-P)是串行運行應用的百分比)。我們特別關注的是,對于一個對于給定的應用軟件(即P值已知),何時才是改用四核處理器的最佳時機。對于一個給定的應用軟件,有一個很有趣的分析方法:合并一個四核處理器與一個雙核處理器的可達加速比,并考慮前文描述的硬件額外開銷因素,把硬件對相關頻率F的影響考慮進去,即當Fquad * S4> Fdual * S2時,四核性能占優。 圖1所示是用比較S4/S2比與Fdual/Fquad的方法解上面的不等式。藍色橫線代表Fdual/Fquad = 1.37,這個數值對應四核處理器每核25-30%的額外性能開銷。這條線與S4/S2曲線相交于P=70%的點,這意味著,應用軟件的并行占比必須超過70%,才能把四核處理器的優勢發揮出來,否則,四核性能比不上速度高出25-30%的雙核處理器。在現階段P>70%這個比例太大了!這意味著70%的應用代碼都要很好地并行運行,這是非常罕見的。 圖1: 當Fquad * S4> Fdual * S2時,S4/S2,Fdual/Fquad對比 有人可能提出,如果單核與雙核解決方案對比,結論也是同樣的,這在理論是正確的,但是,實際數值卻讓我們得出相反的結論:圖2中的紅線與圖1中的紅線相同,而綠線則代表單核與雙核的加速比特性。兩條線的走勢相同,但是,綠線總是在紅線上方延伸,結果P值比雙核與四核曲線的P值小很多,在這種情況下,速度較慢的雙核優于速度較快的單核。此外,架構從單核轉向雙核的性能代價也比從兩核轉向四核低很多,進一步將P的閾值降到一個合理的數值(大約30-35%)。 圖2:比較單核對雙核(綠色曲線)與雙核對四核(紅色曲線)的加速比提高幅度 我們繼續比較雙核和四核處理器:根據經驗,并行比例超過70%的應用軟件是很少的。多媒體應用軟件和某些視頻應用是一個例外,考慮到它們需要的大量并行處理和優化計算,其P值非常高,甚至達到了90-95%。但是,我們所討論的上下文有其特殊性:移動平臺的相關多媒體功能幾乎全都是硬件加速,導致這種特殊性的原因是:沒有任何其它方式能夠達到所需的性能并且/或者移動平臺的功耗是受限的。非硬件加速的多媒體應用軟件確實可充分發揮四核處理器的優勢,但是,它們會很快耗盡任何一種移動設備的電池,因此非硬件加速的使用是有疑問的。 網頁瀏覽器是推動移動計算性能提高的主要力量之一。今天的網頁瀏覽器能夠在雙核處理器上取得1.4-1.5的加速比,對應的P值在55-65%之間,仍遠低于70%閾值。另外,實際的應用情況甚至要比理論更差,因為在今天的網頁瀏覽器內并不能找到Amdahl定律定義的并行百分比P。事實上,大多數加速比來自關聯的支持活動,例如,用戶界面、多媒體、網絡等,某些活動會分幾個線程執行,因此,這些系統級的并行活動讓雙核處理器優勢(1.4-1.5的加速比)得以充分發揮。 即便我們在網頁瀏覽中使用Amdahl定律,由于所涉及的并行算法之間的相互差異,我們也無法在四核處理器上得出1.8-2.0的理論加速比。事實上,我們傾向于四核處理器的1.6-1.7的理論加速比,這個比值對應一個更具實際意義的50-55%的等效P值。即使移動多核處理器的處理優勢將會極大地推進網頁瀏覽器的并行化機制,但是,鑒于所涉及軟件的復雜性,這個過程肯定需要一段相當長的時間。 視頻游戲是另一類值得考慮的計算密集型應用軟件。與網頁瀏覽器相似,,今天的大多數商業游戲引擎并非并行且不適用于Amdahl定律。我們發現,有些游戲具有與網頁瀏覽器一樣的系統級特性,從而在雙核處理器上能取得很好的加速比,當然,其P 值仍然低于推動四核處理器應用的門限值。 此外,移動視頻游戲的瓶頸是圖形處理,而不是CPU。因此,目前,四核這一點激勵因素不足以讓軟件廠商在如此復雜的系統的并行化工程上花費大力氣。我們預計這種情況會逐漸改觀,但是還是尚需時日。 多任務處理的任務量有多大? 多任務處理是軟件并行化的另一個推動力,當然,多任務處理肯定受益于多核處理器。多任務處理指同時處理多個相互關聯性很小或無關聯的粗粒活動。多任務處理的例子很多,例如,一邊聽音樂一邊上網或進行多頁瀏覽(現代的多頁瀏覽實現方法將針對不同的頁面分支出不同的進程。)。 因為多任務處理完全取決于并發任務的數量和屬性,所以并沒有類似Amdahl定律一樣的數學公式來幫助我們確定其加速比。我們需要設法找到貌似合理的能夠把下一代2 GHz雙核處理器發揮到極限的用例,一邊聽音樂一邊做其它事情當然是一個很普通的用例,但是播放音樂甚至播放數據流的工作量并不是很大。 今天雖然有很多Widget微件生成多任務處理請求,但不幸地是,這些程序的代碼量還是很小,甚至不能接近一個單核處理器的滿負荷。把手機視頻轉碼在外接顯示器上播放同時瀏覽網頁或玩視頻游戲是一個任務量很大的多任務處理用例。不過,移動平臺的多媒體功能多數是采用硬件加速技術,否則很快就會把電池用盡,無需考慮雙核與四核處理器。總之,很難發現足以激勵人選用四核的并行用例。 時機尚不成熟 按照PC行業的市場發展軌跡,部分移動行業將很快進入四核處理器平臺時代。四大于二是一個非常有效的營銷口號!然而,對于最終的用戶來說,事實并非如此。 正如本文所述,四核處理器可能會對用戶的成本和性能感覺構成負面影響。當然,某些高端小眾市場或特殊使用場合不會受此影響,然而,事實上,今天的軟件的并行化程度還是不夠高,此時選擇四核處理器不是明智之舉。只有軟件改進了,才是選擇四核的正確時機。目前,意法·愛立信寧愿集中精力優化速度更快且功耗更低的雙核處理器,我們相信這將會給大多數消費者帶來更切合實際的好處。 |