作者:Ron Wilson, 總編輯, Altera公司 對可憐的處理器設計師表示同情。他們的工作以前非常簡單。在每一半導體新工藝代中,每平方毫米的晶體管數量都會加倍,速度會有很大的提高,同時總功耗也會降低。設計師的黃金規則是 “保持體系結構不變,在實現上稍作調整。” 但現在完全不同了。速度提高的越來越小,功耗降低的也越來越少。您再也不能簡單的提高時鐘了:設計師不得不使用所有新晶體管來研究實現并行功能。但是怎樣找到并行功能呢? 首先,我們找到了現成的好方法:通過超標量體系結構自動實現指令級并行功能。然后,有了更多的晶體管,使用了大部分指令并行功能,矢量處理器進行數據并行處理,宏單元級指令并行 — 線程,采用多線程,然后是多核CPU 。 但是,我們突然發現自己身處無盡的 “暗硅片” 中。所有這些晶體管的功率密度增加非常快,如果它們都同時全速運行,根本沒法對其進行散熱。我們使用時鐘選通,然后是電源選通,最后降低晶體管封裝密度,以避免互聯走線被熔化。但是,這限制了我們采用越來越多的晶體管實現數據和算法的并行處理。看起來這一過程要慢慢停下來了。 年初的熱點芯片大會上就提出了這類問題。雖然在克服困難方面已經取得了很大的成就,但是芯片設計師仍然展示了還有繼續創新的空間:找到能夠進行并行處理的地方,使用所有晶體管的方法,以及使其保持較低溫度的技術。 找到好方法 很顯然,如果我們繼續使用所有這些晶體管,那么,我們必須降低能耗。這意味著,減少信息的傳送:數據移動和復制少了,指令讀取的少了。不僅 DRAM 周期能耗比較高,而且在高級進程中,數據通過阻抗越來越大的片內互聯也是問題。在傳統的體系結構中,我們能夠傳送大量的數據:最近的估算表明,SoC 中 80% 的活動硅片用于連接或者緩沖互聯,而不是用于邏輯功能。 信息傳送的少了,意味著需要圍繞數據內部結構來組織處理單元—這是熱點芯片大會論文最明顯的觀點。我們特別關注一下四種情形。第一,搜索引擎加速,處理大量的非結構和獨立數據元素。第二種情形,矢量處理,處理高度結構化的數據,其元素之間會有相關性。第三種,有很多線程的問題,但不一定是并行數據處理。最后一種情形,單線程加速。 搜索引擎加速 對于并行執行而言,網絡搜索既帶來了很多難題,也創造了機會。數據中心設計師不僅僅需要多核 x86 CPU,他們考慮更多的是數據的非結構、獨立特性—基本上,網頁上到處都是。在熱點芯片大會上,微軟資深研究硬件設計工程師 Andrew Putnam 介紹了他的團隊在加速必應搜索引擎方面的工作。 Putnam 簡要介紹了搜索問題的關鍵階段流程,頁面評定 (圖1)。在第一階段,服務器群—大量的服務器,選擇候選頁面:含有某些搜索字符串元素的頁面。這些頁面被送入評定引擎,本身包括三級:特性提取、自由形式表達評估,以及機器學習評分。 圖1. 在專用處理單元群中實現頁面評定流水線,加速必應搜索。 Putnam 說,特性提取是由 54 個硬件狀態機陣列完成的,即,規則表達匹配和結果列表。使用狀態機避免了指令獲取和解碼操作帶來的能耗問題。為進一步降低能耗,頁面內容不會通過特性提取器:只有記錄特性出現、位置和頻率的表格數據被傳送至下一級。 表達式評估器是另一陣列,但這次是特殊的多線程處理器陣列。這些處理器,以 240 個單元為一群,讀取來自提取器的表格數據,從中計算出非常復雜的數字表達值,這可能會包括超越函數。必應開發人員調整了算法,因此,這些表達式會有所變化,無法對其進行硬線連接。這一級的輸出是頁面評定,為從搜索字符串中提取出的元特性分配一個數字。 這一數據隨后被送入機器學習級,Putnam 對此并沒有介紹,這可能需要大量的并行神經網絡仿真。正是這一可訓練級為頁面產生最終的評定分。 Putnam 說,微軟選擇在大規模 FPGA 的 2D 平面內實現三級評定引擎。每一 FPGA 位于中間電路板上,插入到微軟標準服務器機柜的服務器刀片中。Putnam 觀察到,可以采用 ASIC 來很好的均衡速度和功耗。但是由于必應評定算法的多變性,需要具備重新配置能力。他提醒說,否則,特殊的硬件很快就會成為程序員面臨的瓶頸問題,最終不得不依賴數據中心來解決問題。 微軟的設計人員建立了硬件引擎的很多例化,允許異步運行,研究頁面評定的固有并行特性。盡可能減少指令獲取和解碼操作。定義了任務,因此,只有很少量的數據在流水線級之間傳送。在不同的環境中應用相同的原理,會導致完全不同的體系結構。 矢量處理器 搜索引擎使用的數據集有兩個重要的特性(除了巨大的規模之外)。首先,數據元素是獨立的。即,一個頁面的評定分值對任何其他頁面的分值沒有影響,因此,打分任務互不影響。其次,數據元素是非結構化的:兩個頁面不必有相同的格式。 但是仍然有其他大量的數據集具有嚴格的結構。例如,在大氣模型中,每一點都會是矢量,包括了坐標、溫度、入射射線、各種氣體的壓力分量,以及懸浮顆粒的濃度等。計算模型的下一狀態需要對同一矢量算法進行大量的重復。 這些問題非常適合采用矢量處理器來解決:很多同樣的算法流水線工作在鎖定步驟,同時完成相同的運算,但是針對不同的數據—即,經常使用的術語,單指令多數據 (SIMD) 機制。很顯然,這些機制并行完成很多運算,從而提高了性能。通過減少指令獲取數據流,也降低了能耗。 在熱點芯片大會上,NEC 開發經理 Shintaro Momose 介紹了他所在單位的下一代芯片設計,包括 NEC 長遠的 SX 系列矢量超級計算機:SX-ACE。Momose 重點介紹了兩個特殊問題:存儲器帶寬和粒度。 Momose解釋了很多大規模應用 — 包括天氣預報、例子物理、流體動力學,以及結構分析等,為提高計算性能,這需要很高的存儲器帶寬,計算機每完成一次浮點運算都需要與存儲器交換一個字節。而矢量處理器芯片達到了數十 GFLOPS,對 DRAM 的要求越來越高 — 足以填滿芯片的任何總線。相應的,NEC 把 DRAM 控制器—16 個獨立的 DDR3 SDRAM 控制器,直接放到矢量處理器管芯中,大量的管芯交叉開關連接所有 DRAM 通道和任何矢量處理單元。這一決定使得單芯片總帶寬達到 256 GBps。 粒度是更有趣的一個問題。并行體系結構最近的發展趨勢是—可能受到圖形處理單元 (GPU) 進行高性能計算的影響,由非常簡單的處理器構成大規模陣列。而 Momose 看到,這類體系結構雖然概念上很簡單,但是在實際中,要求程序員發現足夠的并行功能,使這些小 CPU 工作起來,讓每一個任務保持同步或者互相鎖定。他認為,更好的是采用一些功能更強大的矢量內核而不是很多小內核。 這就是 SX-ACE 所采用的方法。每一芯片中的每個內核都包括標量處理單元、矢量處理單元和 1 MB 的共享快速 RAM。矢量單元有 16 個處理模塊,每個模塊包括了兩個加法流水線,兩個乘法流水線,以及一個除法/平方根流水線,一個邏輯流水線,以及一個屏蔽流水線。每一芯片有四個內核,因此,每一芯片總峰值達到 256 GFLOPS,與存儲器總帶寬相匹配。在大規模本地存儲器周圍布置快速控制處理器和 16 個算術模塊,NEC找到了大規模并行和實際代碼編程的最佳平衡點,這些代碼與實際的數據有很大的相關性。 需要大量流水線的應用 與數據并行的很多問題相比,數據中的一些問題看起來很難解決,但是可以編程,產生很多線程。在這種情況下,您仍然可以實現很多并行執行,但是每一線程可以完成不同的工作,因此,矢量處理體系結構的價值不大。對于這些情形,ARM® CTO Mike Muller 在他的主題演講中建議了一種不同的策略:他稱之為異構計算/同構體系結構。 這種想法來自于 ARM 的 big.LITTLE 概念。如果一項任務有很多線程,一個或者兩個線程真正需要大量的計算,而很多線程并不需要。big.LITTLE 概念就是把一些小規模的低功耗處理器,以及使用相同的指令集而功能強大的大規模處理器組織起來。然后,硬核線程可以在高速大功率 CPU 上運行,線程完成后,可以選通電源供電。在較慢的低功耗 CPU 上運行簡單線程。 在熱點芯片大會上,Muller 進一步延伸了這一概念,他建議,除了 big 和 LITTLE ARM 內核,集群還可以含有 ARM 的 MALI GPU 內核,以及單指令多線程處理器,一些實例目前已經在 ARM 的研究實驗室中開始規劃了 (圖2)。所有處理器會共享公共編程語言,甚至是某些對象代碼,共享主存儲器,透明、動態的進行線程分配,降低了對顯式數據傳送的需求。通過把每一線程分配給低功耗處理器,滿足了線程目前的性能需求,這類系統降低了總任務的能耗。 圖2. ARM 的異構計算同構體系結構結合了完全不同的微體系結構內核,可以共享相同的源代碼。 單線程性能 聰明的程序員發現并應用了數據并行執行功能,梳理好代碼中的所有線程后,仍然存在單線程執行的問題。但是,我們已經把時鐘頻率、超標量體系結構、分支預測以及很多其他方法發揮到了極限。還有什么其他好辦法嗎?在一篇介紹新 Denver CPU 內核的文章中,Nvidia CPU 設計師 Darrell Boggs說,有。 丹佛很可能是ARM V8所要采用的 (圖3)。這是一種七路超標量體系結構,含有整數、整數/負載存儲和 NEON 浮點執行流水線。它使用了硬件預獲取單元,每一周期解碼 8 條指令。這實際源自很早的 CPU 體系結構的一種特性:丹佛完成動態隨時微代碼優化功能。 圖3. 在您深入了解指令獲取單元之前,Nvidia 的丹佛 CPU 看起來像是傳統的超標量 CPU。 Boggs 解釋說;“執行和分支單元在執行期間對代碼進行分析。把分析信息傳送給硬件優化器,解開循環,重新命名寄存器,重新組織指令。然后,優化后的代碼以微代碼的形式存儲器在特殊高速緩存中。” Boggs 解釋說,第一次通過循環,丹佛構建了代碼的微代碼版本,優化了數千條指令。在后續的步驟中,讀取單元裝入來自優化高速緩存而不是指令高速緩存的微代碼,旁路指令解碼器,把微代碼直接送入執行單元。結果,對于迭代代碼,丹佛在遇到新代碼之前會盡可能只使用最初的指令流。會很快開始處理大部分微代碼。 Boggs 宣稱,這一方法提高了執行速度。他展示了結果,在標準測試中,2.5 GHz 丹佛接近甚至超越了 Intel 的 Haswell。 Boggs 說,丹佛還解決了功耗問題。除了時鐘選通和電源軌選通之外,CPU 還支持低電壓 “保持” 模式,保持 CPU 和高速緩存狀態,有效的降低了泄漏電流。通過避免 CPU 檢查點和高速緩存泛洪問題,保持模式提供了空閑間隙降低功耗的方法,這些間隙非常短,無法完全進行電源選通,通過這些方法處理泛洪和狀態恢復問題。 對高性能和低功耗的需求會持續不斷,半導體技術再也不能以簡單的方式來滿足這些需求。而解決方案越來越專門針對應用的特殊性,算法編程,以及數據的本質結構等。最終,所有體系結構都會更加專用化,通用 CPU 這一術語的含義也會逐漸變化。 |