為 AI 數據中心工作負載供電的挑戰(與機遇) 作者:Arm 首席執行官 Rene Haas 人工智能 (AI) 具有超越過去一個世紀所發生的所有變革性創新的潛力,它在醫療保健、生產力、教育等領域為社會帶來的益處將超乎我們的想象。為了運行這些復雜的 AI 工作負載,全球數據中心所需的計算量需要以指數級規模進行擴展。然而,這種對計算無止盡的需求也揭示了一個嚴峻的挑戰:數據中心需要龐大的電力來驅動AI這一突破性技術。 當今的數據中心已經消耗了大量的電力——全球每年需要 460 太瓦時 (TWh) 電力進行支持,這個數字等同于整個德國的用電量。而 AI 的興起預計將在 2030 年把該數字提高三倍,意味著將超過印度這一世界上人口最多國家的總耗電量。 未來的 AI 模型將持續變得更大、更智能,在帶動對更多計算能力的需求的同時,對電力的需求也會增加,從而成為良性循環的一部分。而找到降低這些大型數據中心電力需求的方法對于實現社會性突破和兌現 AI 的承諾至關重要。 換言之,沒有電力就無法實現 AI,企業需要重新思考如何應對能效問題的方方面面。 重新構思 AI 的未來——一個由 Arm 平臺驅動的未來 Arm 最初的產品就是為使用電池的設備而設計的,并推動了移動電話的變革。因此,深植于 Arm 的能效 DNA能使業界重新思考應如何構建芯片來滿足 AI 日益增長的需求。 在典型的服務器機架中,僅計算芯片就可以消耗超過 50% 的電力預算。工程團隊正在尋找各種可以降低該數字的方法,每一瓦特的減少都至關重要。 正因為此,全球最大的 AI 頭部云服務提供商們轉而采用 Arm 技術來降低功耗。與同行業中的其他產品相比,Arm 最新的 Arm Neoverse CPU 是面向云數據中心,性能最高、最節能的處理器。Neoverse 為頭部云服務提供商提供了定制芯片的靈活性,以優化其苛刻的工作負載,同時提供領先的性能和能效。每一瓦特的節省都可以用來實現更多的計算。這也正是為什么亞馬遜云服務 (AWS)、微軟、Google 和甲骨文 (Oracle) 現在都通過 Neoverse 技術,處理其通用計算和基于 CPU 的 AI 推理和訓練。Neoverse 平臺正在成為云數據中心領域的事實標準。 從近期的行業內的發布來看:
顯然,Neoverse 極大地提升了云端通用計算的性能和能效。此外,合作伙伴也發現在加速計算方面,Neoverse 也能帶來同樣的益處。大規模 AI 訓練需要獨特的加速計算架構,例如,NVIDIA Grace Blackwell 平臺 (GB200) 結合了 NVIDIA 的 Blackwell GPU 架構與基于 Arm 架構的 Grace CPU。這種基于 Arm 技術的計算架構可實現系統級設計優化,與面向大語言模型的 NVIDIA H100 GPU 相比,可帶來 25 倍的能耗降低,并將每個 GPU 的性能提高 30 倍。這些優化能夠帶來顛覆性的性能和節能效果,而這一切都得益于 Neoverse 所帶來的前所未有的芯片定制靈活性。 隨著基于Arm 架構的部署持續擴大,這些企業將可以節省高達 15% 的數據中心總能耗。這些巨幅的節省可以用來在相同的功率范圍內驅動額外的 AI 運算,而不會增加能源負擔。換言之,這些節能相當于可以額外運行 20 億次 ChatGPT 查詢,驅動四分之一的日常網絡搜索流量,為 20% 的美國家庭提供照明,或為與哥斯達黎加面積相仿的國家進行供電。這對改善能源消耗和環境可持續性產生了驚人的影響。 Arm CPU 正在從根本上推動 AI 變革,并造福地球。Arm 架構是未來 AI 計算的基石。 |