Arm 控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)近期宣布通過將 Arm Kleidi 技術集成到 PyTorch 和 ExecuTorch,賦能新一代應用在 Arm CPU 上運行大語言模型 (LLM)。Kleidi 匯集了最新的開發者賦能技術和關鍵資源,旨在推動機器學習 (ML) 技術棧中的技術協作和創新。通過這些重要進展,Arm 致力于為任一 ML 技術棧的開發者提供更為順暢的體驗。 Arm 戰略與生態部開發者技術副總裁 Alex Spinelli 表示:“Arm 正與領先的云服務提供商和框架設計者緊密合作,以打造便捷的開發環境,讓軟件開發者能夠輕松地在基于 Arm 架構的硬件上加速人工智能 (AI) 和 ML 工作負載。自該技術推出的四個月以來,Kleidi 已在 Arm CPU 上加速開發并顯著提升主要的 AI 性能。Arm 與 PyTorch 社區的緊密合作印證了該技術可以大大減少開發者利用高效 AI 所需的工作量。” 與領先框架集成,實現顯著云端優勢 在云端,Kleidi 以利用 Arm Compute Libraries (ACL) 增強 PyTorch 帶來的成果為基礎,為世界各地在 Arm 平臺上優化 AI 的開發者打造藍圖。通過為開發者免去不必要的工程工作,以便開發者能將 Arm 視為運行其關鍵 ML 工作負載的首選平臺。作為實現這一愿景的關鍵一步,Arm 直接與 PyTorch 和 TensorFlow 進行 Arm Kleidi Libraries 的集成合作,這包括將基本的 Arm 軟件庫直接集成到上述的領先框架中。 重要的是,這意味著當新的框架版本發布時,應用開發者能夠自動從其大幅的性能提升中受益,而無需額外在 Arm 平臺上重新編譯。這項投入已對合作伙伴關系產生了積極影響: • Arm 聊天機器人演示由 Meta Llama 3 LLM 驅動,并運行在亞馬遜云科技 (AWS) Graviton 處理器上,首次在主線 PyTorch 中實現了實時聊天響應。 o 根據在 AWS Graviton4 上所測得的數據顯示,通過將 Kleidi 技術集成到開源 PyTorch 代碼庫,詞元 (token) 首次響應時間可提高 2.5 倍。 • 通過優化 torch.compile 以充分利用通過 ACL 提供的 Kleidi 技術,在基于 AWS Graviton3 上所測得的數據顯示,各類 Hugging Face 模型推理工作負載上的性能可提升 1.35 至 2 倍。 這些僅是出色的云端示例之一,卻代表了在 Arm 平臺上普及 ML 工作負載時可實現的性能加速類型。Arm 將持續投入,以確保開發者的 AI 應用可以在其技術上從云到邊都能完美運行,其中包括實現新功能的向前兼容,進而使得開發者能夠即刻從中受益。 合作助力開發者緊跟生成式 AI 發展步伐 隨著新的語言模型版本快速地推陳出新,生成式 AI 掀起了一波 AI 創新熱潮。Arm 持續與 ML 技術棧的各個關鍵環節緊密合作,攜手 AWS 和 Google 等云服務提供商以及 Databricks 等迅速壯大的 ML 獨立軟件開發商 (ISV) 社區,進而幫助開發者立于技術前沿。 Google Cloud Compute 產品管理高級總監 Nirav Mehta 表示:“Arm 和 Google Cloud 致力于為開發者提升 AI 的可訪問性和敏捷性,而 Kleidi 代表了通過軟硬件協同優化滿足 AI 需求所取得的重要進展。隨著我們的客戶正積極采用基于 Arm 架構的定制 CPU —— Axion,我們期待在整個 ML 技術棧中為客戶帶來更加順暢的集成體驗。” Databricks 軟件工程師Lin Yuan 表示:“利用 Databricks Data Intelligence Platform 進行 AI 和 ML 工作流的企業,將受益于跨 ML 軟件棧的 Arm Kleidi 集成所帶來的性能優化。借助由 Databricks ML Runtime 集群提供支持的 Arm 架構 AWS Graviton 處理器,企業可以從各種 ML 軟件庫的加速中受益,同時降低云服務提供商的成本。” 協助開發者將 Arm 提供的資源應用到實際用例中至關重要,為此 Arm 創建示例軟件棧和學習資源,向開發者展示如何在 Arm CPU 上構建 AI 工作負載,進而迅速推動了 Arm 系統的廣泛采用,并加快了開發者在 Arm 系統上的部署速度。第一個案例是通過 Kleidi 技術加速聊天機器人的實現,今年晚些時候 ML Ops 和檢索增強生成 (RAG) 也將添加至這些用例,并計劃在 2025 年實現更多成果。 持續提升端側性能 基于 Kleidi 在端側的發展勢頭,KleidiAI 還將被集成到 ExecuTorch(PyTorch 新的端側推理運行時)。這項集成預計將于 2024 年 10 月完成,并有望為目前正在 ExecuTorch 中進行生產測試或實現的端側應用帶來顯著的性能提升。目前已完成的多項 KleidiAI 集成包括與 Google XNNPACK 和 MediaPipe,以及騰訊的混元大模型,為其實際工作負載帶來了顯著提升。 Kleidi 將繼續與 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架進行集成。從云數據中心到端側設備,開發者現在可以即刻在各類設備上基于 Arm 平臺高效運行高性能 AI 工作負載。Arm 將繼續積極地面向 PyTorch 社區推出增強功能,并專注于針對各種整數格式提供量化優化,進一步提高性能,賦能 Arm CPU 大規模無縫運行新一代 AI 體驗。 實現更多成果以賦能開發者 PyTorch 正在推動 ML 開發領域的開拓創新。近日,Arm 加入 PyTorch 基金會成為 Premier 成員,這對于 Arm 的 AI 之旅來說,無疑是一個重要時刻。Arm 將持續致力于賦能全球各地的開發者在 Arm 平臺上充分發揮端到端 AI 的潛力,進而塑造前沿的 AI 和應用功能。 |