Gartner近期發(fā)布的2024年CIO和技術高管調研顯示,超過60%的中國企業(yè)計劃在未來12至24個月內部署生成式人工智能(GenAI)。由于中國企業(yè)傾向于在本地而非通過公有云部署GenAI,目前的基礎設施環(huán)境無法支持GenAl項目,這將推動中國企業(yè)數據中心的設計轉型。 Gartner研究總監(jiān)張吟鈴表示:“由于安全和數據隱私方面的擔憂以及監(jiān)管要求,一些企業(yè)更傾向于在本地部署GenAl解決方案或微調大語言模型(LLM)。在本地部署GenAl對于數據中心來說并不僅僅是一個簡單的托管需求,而是可能改變企業(yè)數據中心的戰(zhàn)略,因為模型訓練需要大規(guī)模的GPU集群! Gartner定義了五種GenAl部署方法(見圖1)。根據企業(yè)選擇的GenAI部署方法,中國的首席信息官(CIO)及基礎設施和運營(I&O)領導者需要了解GenAI部署的影響以及如何采取行動。 ![]() 圖1:生成式人工智能部署的五種方法 中國的CIO及I&O領導者須為應對這一技術對數據中心的影響做好準備。 本地部署GenAI將迫使I&O領導者改變托管環(huán)境的設計方式 部署GenAI對數據中心的影響取決于所運行的工作負載類型,因為某些GenAI工作負載需要使用高端圖形處理器(GPU)。由于中國市場上的高端GPU供應有限,I&O領導者要在本地部署GenAI就需要改變托管環(huán)境的設計方式。 I&O領導者無法獨自解決供應短缺問題,必須與業(yè)務、AI工程師和職能團隊合作應對這一挑戰(zhàn)。 張吟鈴表示:“為GenAl的部署準備基礎設施資源的中國CIO及I&O領導者應該主動與業(yè)務及相關團隊合作,預測不同工作負載對數據中心的成本和時間表的影響,從而為GenAl的部署制定數據中心宏觀戰(zhàn)略。如果訓練模型需要高端GPU集群,則需要通過平衡成本、風險和機遇(如購買替代硬件或租賃GPU資源),充分了解各類托管方案。” 部署大規(guī)模GPU集群需要改造并升級數據中心基礎設施和設備 從零開始構建基礎模型或微調模型需要部署大規(guī)模GPU集群,這將對現有數據中心帶來顛覆。因為GenAI模型的訓練需要高吞吐量、低延遲和無損的基礎設施。為了支持此類高性能計算集群,必須對網絡、存儲、電力供應和冷卻系統(tǒng)進行升級。在某些情況下,需要對現有設施進行改造,以承載升級后的基礎設施(見圖2)。 ![]() 圖2:大規(guī)模GPU集群對數據中心的影響 張吟鈴表示:“中國CIO及I&O領導者需要與數據科學家和工程師合作,明確GPU集群規(guī)模和GenAI性能要求,從而確定網絡和存儲等方面的基礎設施要求。同時,也需要分析電力需求、冷卻效率、機架、空間等,確定現有數據中心環(huán)境在部署大型GPU集群方面存在的差距。平衡時間和成本,選擇最適合的數據中心改造方案。” |