來源:半導體行業觀察 自去年ChatGPT發布以來,數據中心的芯片需求迎來了新一輪的上升周期。當中尤其以英偉達GPU的表現最為亮眼。與此同時,作為芯片最終買家的云廠商也開始以自研或跟芯片廠商合作的方式涉足數據中心核心芯片的開發。 美國的亞馬遜云(AWS)2017年最先實現了DPU芯片(AWS稱之為Nitro)的商業化成功部署,AWS在使用自研DPU芯片后,使其實現了巨大收益;谷歌依托于自身對業務的深刻理解及與Broadcom等芯片公司的緊密合作,成功迭代和推出了多代自研TPU芯片。 近日,國內的“云大戶”中國移動也帶來自己的DPU芯片“磐石”——本土首顆400Gbps帶寬的DPU ASIC芯片,實現關鍵技術自主可控?紤]到DPU對數據中心和云業務的重要性,相信這將為近年來大力發展云業務的中國移動打下夯實基礎,并為其帶來獨特的競爭力。 ![]() 圖:中國移動磐石DPU V4.0 DPU,第三顆主力芯片 所謂DPU(Data Processing Unit),也就是數據處理單元。顧名思義,這是一種專門為數據處理而設計的芯片。作為繼CPU、GPU以外的第三顆主力芯片, DPU成為了幾乎所有云廠商甚至海外芯片巨頭的關注目標。例如英偉達耗資69億美元收購Mellanox,AMD花費19億美元收購Pensando ,就是為了DPU。 由中國移動協同云豹智能和信通院聯合撰寫的DPU白皮書《云計算通用可編程DPU發展白皮書(2023年)》中指出:“隨著人類生產力進入算力時代,傳統以 CPU 為核心的架構正在遭受算力瓶頸考驗,多樣化算力需求亟需軟硬件架構全面變革,算力技術發展必將遵循‘軟件定義一切,硬件加速一切’的理念,重構算力基礎設施,通用可編程加速單元 DPU 將成為新的算力核心,重新定義算力時代云計算技術新標準,構建算力時代新技術曲線。” 但其實在DPU面世以前,這款芯片還是經歷了幾代的變遷。 在一開始的時候,數據中心的數據處理工作都是由CPU完成,而網絡傳輸任務則由專門的傳統基礎網卡NIC(又稱網絡接口卡)處理。具體工作流程就是NIC將用戶需要傳輸的數據轉換為網絡設備能夠識別的格式,然后把數據交由CPU處理。 但隨著網絡規模的不斷增加和新需求的不斷出現,網絡和存儲的數據量不斷增加,進而驅動數據中心中的網卡端口速率從 10G 快速向 25G、100G甚至200G 及以上演進,給CPU帶來新的壓力。這個時候,一種旨在減輕 CPU 的部分處理負載,進一步提高數據中心效率的智能網卡(SmartNIC)就進入了大眾的視野。據了解,智能網卡 SmartNIC 除了具備傳統基礎網卡的網絡傳輸功能外,還提供一定的硬件卸載和加速能力,釋放主機 CPU的部分計算資源。 然而,在后續的發展中,SmartNIC也捉襟見肘。例如,因為沒有包含通用處理器 CPU,意味著仍然需要主機 CPU進行控制面管理及網絡和存儲等協議的大部分處理,繼續消耗大量主機Host資源。而且,隨著數據中心網絡速率向100G及200G甚至更高速率的不斷提高,主機不但仍會消耗大量寶貴的通用CPU資源對流量進行分類、跟蹤和控制,而且其性能也已經無法滿足更高網絡速率及存儲帶寬的需求。 于是,如何實現主機 CPU 的“零消耗”及解鎖數據中心向更大規模及更高帶寬的演進,成了云廠商下一步的研究方向,DPU也應運而生。 從設計上看,DPU通過在硬件架構上增加通用處理單元CPU和豐富的硬件加速單元,從而便于實現對網絡、存儲、安全和管控等通用基礎設施的加速和全卸載。其產品形態主要有NP/MP+CPU,FPGA+CPU和單芯片ASIC方案。據了解,在發展早期,基于FPGA的可編程性的FPGA+CPU多芯片方案成為了行業首選。 除了亞馬遜以外,大部分云廠商尤其是國內的云廠商,如:阿里、騰訊、百度等,都用的傳統FPGA+CPU方案,其競爭壓力也隨之而至。隨著帶寬流量的進一步增加,擁有價格和性能優勢、兼顧專用加速器的優異性能和內嵌通用處理器的靈活性可編程ASIC單芯片方案成為了行業的最終選擇,而國內的云廠商也正在尋求從FPGA+CPU方案到ASIC方案的演變,這最終驅使中國移動自研了采用ASIC的DPU芯片“磐石”。 磐石,取得重大突破 從產品應用角度看,如何才稱得上一顆有競爭優勢的DPU? 在我們看來,它首先應該能夠支持高速低時延網絡,因為這是這個芯片的首要任務;其次,我們還希望這個DPU能夠引入高性能通用多核CPU、可編程硬件加速器,以期在提供可編程性和通用處理能力的同時,還能滿足人工智能、分析和安全操作等差異化特定任務的執行。 中國移動的這顆芯片帶寬為400Gbps,緊密契合了當前的數據中心高帶寬需求,我們可以肯定地說,中國移動“磐石”DPU芯片的成功研發,是我國國產芯片領域取得的重大技術突破。 熟悉的讀者應該清楚地知道,數據中心服務器的集成度越來越高。無論是x86還是Arm等架構服務器的CPU芯片,都在向單芯片幾百個甚至更多CPU集成,密度都在不斷增加;同時,網絡存儲也正在向基于低時延以太網技術的彈性存儲方向發展,這增加了對高帶寬低時延以太網的需求;再者,私有云應用程序和虛擬桌面基礎設施的增加對網絡提出了額外的要求;最后,物聯網和邊緣的海量數據積累正在增加對網絡的帶寬要求。 疊加AI帶來的新需求,400Gbps洶涌而至,這也讓磐石DPU的發布恰逢其時。據介紹,磐石DPU的面世,不但將國產DPU芯片的最高傳輸速率提升到一個新臺階,也讓國內另一運營商基于海外FPGA+CPU多芯片方案的DPU等相形見絀。 值得一提的是,隨著該芯片的面世,國產DPU還首次演進到世界頂尖水平——該芯片帶寬和全球領先的英偉達BlueField-3 DPU達到同一水平。 據公開資料介紹,磐石DPU芯片擁有400Gbps的數據傳輸能力,將國產DPU芯片最高傳輸速率提升一倍,達到全球頂尖水平。該芯片擁有每秒處理百萬個數據包的存儲能力,遠程直接存取數據(RDMA)的時延低至5微秒。同時,還具有低功耗、低成本特性,依托該芯片打造的磐石DPU硬件板卡,較上一代硬件板卡功耗下降50%,成本下降50%。中國移動推出“磐石”DPU芯片以后,無疑將為其云服務帶來巨大收益,也將為其客戶帶來更高性價比的產品方案,這也給國內其他云服務商帶來更大的壓力。 我們認為,“磐石”DPU芯片將有力推動我國DPU關鍵技術自主可控、硬件架構持續優化、生態布局不斷完善。中國移動在發布會上進一步指出,該芯片將廣泛應用于中國移動數據中心建設,支撐通用計算、智能計算等業務場景,為云計算、邊緣計算、大數據處理、AI大模型訓練等領域提供更安全、可靠、高效的技術支持,助力我國大數據、人工智能、算力網絡高速發展。 眾所周知,打造一個DPU ASIC并不是一件很容易的事情,這也是為何大部分廠商基于FPGA打造相關解決方案。從目前看來,與ASIC的方案相比,基于FPGA的多芯片方案功耗高、成本高,且對用戶的研發要求高、人力投入大,還不能靈活移植各種應用。更重要的是,這些方案采用的高性能FPGA芯片及配合的CPU芯片均是由海外廠商提供。 這就讓中國移動協同生態伙伴自研的這顆400Gbps國產DPU芯片,在國家大力發展新質生產力戰略上顯得更有意義。 寫在最后 作為國內領先的運營商,中國移動在過去幾年頻頻通過旗下的企業投身芯片自研。 例如在2023年6月,中國移動旗下的中移物聯正式發布全球首顆RISC-V架構的LTE-Cat.1芯片(CM8610 LTE-Cat.1芯片)和中國移動首顆量產的蜂窩物聯網通信芯片(CM6620 NB-IoT芯片;當年八月,中國移動又發布了一顆核心自主創新成果“破風8676”可重構5G射頻收發芯片。按照中國移動的描述,這些芯片不但能夠提升公司產品的性能表現,同時還為國內自主可控事業添磚加瓦。 在“磐石”DPU面世后,中國移動的自研芯片業務又上了一個新臺階。期待他們在未來給我們帶來更多的驚喜。 |