作者: Stefan Rosinger,ARM高級 CPU 產(chǎn)品經(jīng)理 時(shí)光飛逝,好像在昨天我們才剛發(fā)布ARM Cortex-A73這款最節(jié)能的高效能Cortex應(yīng)用處理器,轉(zhuǎn)眼之間我們就看到Cortex-A73量產(chǎn)并被廣泛應(yīng)用到移動與消費(fèi)領(lǐng)域的各種頂級設(shè)備。芯片廠商現(xiàn)已將其與 Cortex-A53 相結(jié)合,打造出了各種 big.LITTLE 配置。Cortex-A73 與 Cortex-A53 的結(jié)合不但能夠提供出色的性能,還可實(shí)現(xiàn)極長的電池續(xù)航時(shí)間,這樣你的設(shè)備便能夠用上一整天。如此一來,設(shè)計(jì)師和 OEM 廠商就可以打造出當(dāng)今市面上最纖薄、最小巧的產(chǎn)品。 這種效率與性能的結(jié)合再加上移動生態(tài)系統(tǒng)中操作系統(tǒng)與應(yīng)用程序開發(fā)商的成果,開辟了新的使用場合:利用手機(jī)把自己置身于增強(qiáng)現(xiàn)實(shí)或虛擬現(xiàn)實(shí)的世界當(dāng)中、拍攝單反級照片或利用緊湊型擴(kuò)展塢將智能手機(jī)變成功能齊全的臺式電腦。這些使用場合以及其它需要極高性能的使用場合造就了人們對更高計(jì)算性能持續(xù)增長的強(qiáng)勁需求。為滿足這一需求,移動 SoC 的性能近年來已經(jīng)突飛猛進(jìn),而我們并未看到這一趨勢有停止或慢下腳步的跡象。 現(xiàn)在我們又發(fā)布兩款全新的處理器:Cortex-A75 高性能處理器和 Cortex-A55 高效率處理器,目的是讓你的設(shè)備實(shí)現(xiàn)所需的性能升級。 隆重推出全新的 Cortex-A75 和 Cortex-A55 處理器 Cortex-A75 和 Cortex-A55 均采用 DynamIQ 技術(shù)打造,該技術(shù)是 ARM 于 2017 年 3 月份發(fā)布的全新多核技術(shù)。Cortex-A75 采用全新的架構(gòu),進(jìn)一步提升處理器性能,同時(shí)保持了其前代處理器出色的節(jié)能性。全新 Cortex-A75 CPU 不但提升了性能,還增強(qiáng)了CPU處理高級任務(wù)的能力,以一種全新的方式轉(zhuǎn)變應(yīng)用程序和商業(yè)模式。 人工智能 – 徹底改變商業(yè)和產(chǎn)業(yè)面貌的技術(shù)創(chuàng)新 除了作為一項(xiàng)來自數(shù)據(jù)中心或“云端”的重要功能以外,人工智能 (AI) 和機(jī)器學(xué)習(xí) (ML) 正出現(xiàn)在你的設(shè)備上、來到物聯(lián)網(wǎng)的“邊緣”。這是我們在各類設(shè)備上看到的最強(qiáng)勁的新興趨勢。從聯(lián)網(wǎng)的溫控裝置到自動駕駛再到手機(jī)和可穿戴科技產(chǎn)品,你會看到,機(jī)器學(xué)習(xí)算法能大大改善人們的生活。 開發(fā)商有許多種方法來應(yīng)對各類設(shè)備上機(jī)器學(xué)習(xí)任務(wù)的增長。現(xiàn)代 SoC 通常包含若干個(gè)處理單元:1 顆 CPU、1 顆 GPU (例如新近發(fā)布的 Mali-G72),有時(shí)候還與 DSP 和特定的加速單元相結(jié)合,加速單元有助于加快卷積神經(jīng)網(wǎng)絡(luò) (CNN)、遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 以及其它機(jī)器學(xué)習(xí)任務(wù)。然而軟件開發(fā)商和芯片廠商面臨著以下挑戰(zhàn): 1. 在芯片上額外添加硬件的成本十分高昂 – 在芯片上增添任何額外的組件都會給芯片廠商造成高昂的成本,因此需要非常謹(jǐn)慎地運(yùn)用資源。高端設(shè)備可能包含專用加速器,但是占全球絕大多數(shù)的主流移動設(shè)備通常不含機(jī)器學(xué)習(xí)的專用硬件。然而應(yīng)用程序開發(fā)商想要讓自己部署的機(jī)器學(xué)習(xí)功能支持每一代中的所有設(shè)備。 2. 在系統(tǒng)中反復(fù)轉(zhuǎn)換任務(wù)對于軟件開發(fā)商而言具有很大的挑戰(zhàn)性,因?yàn)檫@需要花費(fèi)時(shí)間而且需要極高的性能。例如對 GPU 上所運(yùn)行的圖形任務(wù)等固定任務(wù)而言,你需要對固定的繪圖軟件和驅(qū)動程序進(jìn)行本地優(yōu)化,以實(shí)現(xiàn)高效圖形處理。處理固定計(jì)算函數(shù)的加速器或 DSP 也是如此。這些函數(shù)可以寫入并部署在邊緣設(shè)備的固件中,它們在固件中通常比在 CPU 上運(yùn)行得更加高效。然而任務(wù)存在灰色地帶,在灰色地帶中,開發(fā)商對 CPU 的可訪問性使 CPU 成為了在各種移動邊緣設(shè)備上部署機(jī)器學(xué)習(xí)功能的最簡單的選擇。 3. 新的任務(wù)及其處理要求依然在發(fā)展,因此固定函數(shù)專用的硬件加速器無法解決最新算法的難題。在這種情況下,合理的做法是利用通用 CPU 功能來增強(qiáng)高端設(shè)備中已優(yōu)化的加速代碼區(qū)塊。 這些特性讓我們得出了結(jié)論:任務(wù)的異構(gòu)分布是正確的方法。并沒有萬金油式的方法可以解決上述的諸多難題。結(jié)合通用處理、專用加速器以及 GPU 計(jì)算技術(shù)都能夠讓 SoC 達(dá)到最高的系統(tǒng)效率。這樣一來,不論是具備多個(gè)計(jì)算單元的高端設(shè)計(jì)還是成本受限的低端設(shè)備,都可以實(shí)現(xiàn)擴(kuò)展。即使刪除了一些區(qū)塊,這些低端設(shè)備依舊得益于異構(gòu)特性。 軟件對于實(shí)現(xiàn)機(jī)器學(xué)習(xí)而言至關(guān)重要。你可能已經(jīng)看到,我們發(fā)布了免費(fèi)的開源 ARM 計(jì)算庫(ARM Compute Library)。僅在 CPU 上運(yùn)行時(shí),它可以令人工智能和機(jī)器學(xué)習(xí)任務(wù)的性能提升 10-15 倍。這對于市面上現(xiàn)有的所有設(shè)備而言都是個(gè)好消息,基于 ARM 的 SoC 可以立即利用這一全新的庫。這是一個(gè)很好的例子,如果進(jìn)行合適的調(diào)節(jié),我們便可以利用更好的軟件在現(xiàn)有硬件上實(shí)現(xiàn)更高的性能。ARM 一直在軟件和硬件兩方面不斷創(chuàng)新。接下來我們詳細(xì)介紹一下我們針對機(jī)器學(xué)習(xí)和通用計(jì)算要求的最新硬件改進(jìn)。 DynamIQ – 該技術(shù)可提升擴(kuò)展能力、為各個(gè)領(lǐng)域?qū)崿F(xiàn)全新的性能水平 我們最近發(fā)布了 ARM DynamIQ 處理器技術(shù),它能夠在性能、效能、擴(kuò)展能力以及響應(yīng)速度等方面達(dá)到全新的水平。它是一種全新的 CPU 集群架構(gòu)和內(nèi)存分層體系,具備全新的硬件設(shè)計(jì)范例,可實(shí)現(xiàn)更廣泛的擴(kuò)展能力。它還擁有諸多全新特性,這些特性通過把軟件與硬件相結(jié)合,在接下來的 3-5 年里將使人工智能和機(jī)器學(xué)習(xí)算法的性能提升 50 倍。 更高的性能可滿足人工智能任務(wù)的需求,這類任務(wù)是當(dāng)前和未來 ARM IP的一大主要焦點(diǎn) 自多核處理器問世以來,DynamIQ 技術(shù)標(biāo)志著人類在這一領(lǐng)域取得的重大進(jìn)步。多核處理器設(shè)計(jì)曾為移動行業(yè)帶來雙核和 4 核處理器。憑借 DynamIQ,單一集群現(xiàn)在最多能夠包含 8 個(gè)處理器,除了可搭配不同的物理設(shè)計(jì)特性(功耗、頻率、面積),還能為單個(gè)CPU或多個(gè)核心單獨(dú)配置電壓與電源信道。這種靈活性和擴(kuò)展性讓芯片廠商能夠瞄準(zhǔn)各類市場,其中包括智能手機(jī)、自動駕駛汽車、服務(wù)器和網(wǎng)絡(luò)基礎(chǔ)設(shè)施、家居自動化以及更智能的 DTV領(lǐng)域 等等。我的同事 Govind Wathan 寫了一篇很好的文章,詳細(xì)介紹了 DynamIQ 的更多細(xì)節(jié),大家可以點(diǎn)此閱讀這篇文章。 隆重推出 Cortex-A75 處理器 – 首款基于 DynamIQ 的高性能處理器,可實(shí)現(xiàn)前所未有的性能和效率 我很自豪地向大家介紹全新的 Cortex-A75 處理器,它是 ARM 最新發(fā)布的最高性能CPU,同時(shí)也是基于全新 DynamIQ 技術(shù)的首款高性能 CPU。在相同頻率下,Cortex-A75比Cortex-A73 性能提升20%。這種更強(qiáng)的計(jì)算能力再加上我們?yōu)闄C(jī)器學(xué)習(xí)和其它高級使用場合所做的重大改進(jìn),將讓那些高要求的應(yīng)用程序能夠運(yùn)行得更加流暢,為未來更復(fù)雜的任務(wù)提供新的標(biāo)桿。 Cortex-A75 可為移動和基礎(chǔ)設(shè)施系統(tǒng)帶來全新的性能水平 Cortex-A75 將為目標(biāo)市場帶來更出色的應(yīng)用程序和用戶體驗(yàn),繼續(xù)延續(xù)Cortex-A73 的出色性能。從端到云,它所面向的市場十分廣泛 (不止是手機(jī)和筆記本電腦/翻蓋設(shè)備),能夠在網(wǎng)絡(luò)基礎(chǔ)設(shè)施、汽車設(shè)計(jì)乃至服務(wù)器等方面實(shí)現(xiàn)全新的性能水平。Cortex-A75 的效率依然是頂級水平。我們采用了打造 Cortex-A73 時(shí)的諸多設(shè)計(jì)思路,將其運(yùn)用于 Cortex-A75 的設(shè)計(jì)當(dāng)中。 Cortex-A75 中微架構(gòu)的一些主要改進(jìn)包括: - 超標(biāo)量處理器核心,與上一代產(chǎn)品相比能夠解碼、發(fā)出以及執(zhí)行更多的指令,支援完全亂序處理、無阻塞高吞吐量一級高速緩存以及高級指令和數(shù)據(jù)預(yù)取。 - 位于處理核心附近的專用二級高速緩存。這些專用二級高速緩存的容量可以配置,它們縮短了內(nèi)存的存取延遲,讓任務(wù)能夠更接近核心,因而可實(shí)現(xiàn)更快的處理和更低的功耗。 - DynamIQ 共享單元 (DSU) 中的統(tǒng)一共享三級高速緩存可被集群內(nèi)的所有處理器共享,其中包括 Cortex-A75 和 Cortex-A55。 ARM 合作伙伴既可以單獨(dú)使用 Cortex-A75 高性能處理器 (最多 4 顆),也可以使用 Cortex-A75 與Cortex-A55 處理器構(gòu)成的 big.LITTLE 組合 (一共最多 8 顆處理器)。最終系統(tǒng)的選擇取決于集成商 (通常是芯片供應(yīng)商)、以及在性能水平與成本之間的權(quán)衡考量。 前所未有的性能、不折不扣的效率 Cortex-A75 可實(shí)現(xiàn)單線程性能的大幅提升,這一點(diǎn)將惠及所有市場。與去年同頻率的 CPU 相比,Cortex-A75 的整數(shù)核心性能提升了 20% 以上,可為新一代設(shè)備帶來大幅性能提升。與預(yù)計(jì)最高運(yùn)行頻率為 3GHz 的設(shè)備相比,這一性能優(yōu)勢相較于其它設(shè)備更加明顯,如下圖所示。 更高的性能、不折不扣的效率 在浮點(diǎn)、NEON SIMD 處理或內(nèi)存性能等其它衡量標(biāo)準(zhǔn)上,Cortex-A75 帶來了更大的提升,像是在Octane基準(zhǔn)測試套件上提升幅度接近50%。與 Cortex-A73 相比,Cortex-A75 在內(nèi)存復(fù)制方面的吞吐量實(shí)現(xiàn)了 15% 的提升。更高的內(nèi)存性能非常重要,因?yàn)椴僮飨到y(tǒng)和應(yīng)用程序均廣泛使用內(nèi)存。 Cortex-A75 可在各類任務(wù)上實(shí)現(xiàn)重大性能提升 DynamIQ big.LITTLE – Cortex-A75 與 Cortex-A55 相結(jié)合 Cortex-A75 可提供出色的性能,其效率也處于業(yè)界領(lǐng)先地位。然而,許多應(yīng)用程序并不需要高性能處理器的性能,即便某些領(lǐng)域需要應(yīng)用高性能,需要 CPU 最高性能水平的時(shí)間有時(shí)候也僅占約 10%。big.LITTLE 技術(shù)可以在這種情形下節(jié)省數(shù)百毫瓦的功效、延長電池續(xù)航時(shí)間以及讓大核心能夠更快地運(yùn)行,由小核心負(fù)責(zé)處理低級任務(wù)。Cortex-A55 是 ARM 迄今為止提供這種功能的最高效小處理器,它是 Cortex-A53 的成功的后續(xù)產(chǎn)品,Cortex-A55 是 Cortex-A75 理想的搭檔。DynamIQ 支持例如 1+7 這樣尺寸效率極高的組合,為中端設(shè)備提供了一條絕佳的升級之路: DynamIQ big.LITTLE 讓中端設(shè)備能夠?qū)崿F(xiàn)全新的性能水平 請務(wù)必看一看 Govind 有關(guān) Cortex-A55 和 DynamIQ big.LITTLE 的博客文章以便了解更多細(xì)節(jié)。 Cortex-A75 幾乎涵蓋了從端到云的所有應(yīng)用場合 Cortex-A75 可廣泛應(yīng)用于各個(gè)領(lǐng)域。該處理器內(nèi)置的許多特性以及 DynamIQ 集群不僅僅適用于移動和消費(fèi)性使用場合。例如,我們還期待 Cortex-A75 應(yīng)用在高要求的聯(lián)網(wǎng)和服務(wù)器等應(yīng)用場合。由于它的基礎(chǔ)設(shè)施性能比基于 Cortex-A72 的系統(tǒng)高 40%,因此采用 Cortex-A75 的基礎(chǔ)設(shè)施系統(tǒng)將會實(shí)現(xiàn)大幅性能提升: 利用全新的 Cortex-A75 和 CMN-600 提升基礎(chǔ)設(shè)施性能 高速緩存隱藏(cache stashing)、多個(gè)媒介間不可分割交易(atomic transactions)、高速緩存路徑分配和區(qū)分優(yōu)先次序等特性以及先進(jìn)的 RAS 功能使 Cortex-A75 十分適合大規(guī)模系統(tǒng),其效率能夠帶來更高的計(jì)算密度。 采用全新 DynamIQ 處理器的片上系統(tǒng) (SoC) 設(shè)計(jì)是什么樣的? ARM 長期以來一直致力于投資在范例 SoC 設(shè)計(jì)中的IP驗(yàn)證。由于 ARM 的IP組合與日俱增,這些范例系統(tǒng)的復(fù)雜度和范圍也隨之增長。這項(xiàng)工作涵蓋了從 SoC 架構(gòu)到詳細(xì)的產(chǎn)前分析的方方面面,ARM 將以系統(tǒng)指南的形式提供這類知識。 除了全新 CPU 以外,ARM 還提供各種新的系統(tǒng)指南,這些指南涵蓋了移動系統(tǒng)和基礎(chǔ)設(shè)施系統(tǒng)。CoreLink SGM-775 移動系統(tǒng)指南專為 Cortex-A75、Cortex-A55 以及 Mali-G72 而設(shè)計(jì)和優(yōu)化。CoreLink SGI-775 基礎(chǔ)設(shè)施系統(tǒng)指南介紹了利用全新 ARM IP可以打造的基礎(chǔ)設(shè)施 SoC 架構(gòu)。二者均包括文檔、模型和軟件,而且可供 ARM 合作伙伴免費(fèi)使用。 這些處理器何時(shí)上市? 我們非常高興看到 Cortex-A75、Cortex-A55 以及 DynamIQ 的各種功能,我相信新款CPU 的靈活性以及提高的性能一定會讓設(shè)備的功能得到提升。我們將會看到新一輪設(shè)備問世,為市場帶差異化和更為豐富的體驗(yàn),這是件值得慶幸的事情。 已有超過10家授權(quán)的客戶采用這兩款CPU 和DynamIQ 技術(shù),我們應(yīng)該很快就會看到一些酷炫的新設(shè)備上市。我預(yù)計(jì) 2018 年初首批設(shè)備就會上市,我已經(jīng)等不及想要親自體驗(yàn)一下它們了。 |