來源:IT之家 在第 56 屆 IEEE / ACM 微體系結(jié)構(gòu)國際研討會上,美國加州大學(xué)河濱分校(UCR)的研究人員展示了一種全新的方法,可以實現(xiàn)計算速度翻番、能耗減半的效果。 研究人員表示這項技術(shù)理論上適用于從智能手機(jī)到數(shù)據(jù)中心服務(wù)器的任何處理器和加速器,但需要進(jìn)一步地開發(fā)適配。 加利福尼亞大學(xué)電氣與計算機(jī)工程系副教授、本研究報告的共同作者曾宏偉(Hung-Wei Tseng)表示: 你不需要增加新的處理器,可以在現(xiàn)有計算機(jī)平臺上部署。這項技術(shù)的核心,是幫助你更合理高效地管理可用硬件資源。 研究人員開發(fā)的平臺打破了傳統(tǒng)的編程模式,團(tuán)隊將其稱為同步異構(gòu)多線程(SHMT)。傳統(tǒng)編程模式是在一段時間內(nèi),只向系統(tǒng)的一個計算組件(中央處理器、圖形處理器、張量處理器或其他處理器或加速器)提供數(shù)據(jù),而 SHMT 技術(shù)在所有組件之間同時并行執(zhí)行代碼。 傳統(tǒng)、現(xiàn)代異構(gòu)和 SHMT 的并行化方法比較 SHMT 采用質(zhì)量感知工作偷取(QAWS)調(diào)度策略,保持平衡控制計算質(zhì)量和工作負(fù)載,因此降低了資源調(diào)用。 SHMT runtime 系統(tǒng)將創(chuàng)建一組虛擬操作(vOPS),并劃分為一個或多個高級操作(HLOP),以便同時使用多個硬件資源。 根據(jù)所選政策加速 SHMT 計算 傳統(tǒng)計算與 SHMT 的活動和閑置消耗比較 SHMT runtime 系統(tǒng)將 HLOPS 分配到任務(wù)隊列,在目標(biāo)硬件上運行。由于 HLOPS 與硬件無關(guān),runtime 系統(tǒng)可根據(jù)需要將任務(wù)重定向到計算平臺的一個或另一個組件。 研究人員以他們創(chuàng)建的測試平臺為例,展示了新軟件庫的有效性。他們創(chuàng)造了一種混合體,既可以被視為智能手機(jī),也可以被視為一種個人電腦,甚至是服務(wù)器。 該測試平臺基于一塊帶有 PCIe 接口的背板,一臺搭載英偉達(dá) Nano Jetson 模塊組的“計算單元”,通過 M.2 Key E 插槽連接谷歌 Edge 加速器(TPU)。該模塊帶有四核 ARM Cortex-A57 處理器(CPU)和 128 個 Maxwell 架構(gòu)圖形內(nèi)核(GPU)。 本系統(tǒng)的主內(nèi)存為 4 GB LPDDR4,頻率為 1600 MHz,速度為 25.6 Gbps,用于存儲一般數(shù)據(jù)。Edge TPU 模塊額外包含 8 MB 內(nèi)存,并使用 Ubuntu Linux 18.04 作為操作系統(tǒng)。 在一個使用標(biāo)準(zhǔn)測試應(yīng)用程序的簡易異構(gòu)平臺上運行 SHMT 軟件包的結(jié)果表明,與基本計算分配方法相比,采用最有效策略的 QAWS 框架的計算速度提高了 1.95 倍,消耗顯著降低了 51%。 這種方法如果應(yīng)用于數(shù)據(jù)中心,可以在保持現(xiàn)有硬件不變的情況下,最大化性能收益。目前,所提出的解決方案尚未準(zhǔn)備好付諸實施,但肯定會有很多人對此感興趣。 |