近日,美國AI芯片初創公司Cerebras Systems正式推出全球尺寸最大的AI芯片——Wafer Scale Engine(WSE),并在AI推理性能上實現歷史性突破。這款邊長22厘米、面積達462平方厘米的芯片,集成了40億至4萬億個晶體管(不同代次版本),其推理速度比同等規模的英偉達GPU集群快約2.5倍,重新定義了AI計算的性能邊界。 “晶圓級”架構:單芯片媲美超級計算機 WSE的核心創新在于其“晶圓級”設計——將整塊300毫米晶圓轉化為單一處理器,而非傳統方式中將晶圓切割為多個小芯片。這一設計使WSE擁有以下突破性參數: 晶體管數量:最新WSE-3版本集成超4萬億個晶體管,是英偉達H100的52倍; 核心規模:搭載90萬個AI優化計算核心(WSE-3),是H100的52倍; 內存帶寬:片上SRAM達44GB,帶寬9PB/s,是H100的10,000倍; 功耗效率:單芯片功耗15千瓦,但能效比優于英偉達DGX H100集群。 Cerebras首席執行官Andrew Feldman表示:“WSE不是對現有架構的漸進改進,而是芯片技術的一次范式革命。通過將計算、內存和通信全部集成在單晶圓上,我們消除了傳統集群中90%的數據傳輸延遲! 推理性能碾壓:每秒生成2500個Token 在Web Summit 2025大會上,Cerebras展示了WSE在Meta Llama 4模型上的推理性能: 基準測試:WSE處理速度達每秒2500個Token,而英偉達集群僅能實現每秒1000個Token; 模型支持:可訓練24萬億參數的AI模型,是英偉達方案的600倍; 成本優勢:訓練700億參數的Llama模型,WSE集群僅需1天,而英偉達集群需30天。 第三方機構Artificial Analysis的測試顯示,WSE在Meta最先進模型上的推理性能“超越所有現有方案”,成為唯一能在特定場景下超越英偉達Blackwell架構的解決方案。 技術突破:稀疏計算與片上內存革命 WSE的性能飛躍源于兩大核心技術: · 稀疏線性代數核心(SLAC): 針對深度學習中的稀疏計算(數據中50-98%為零)優化,自動跳過零值計算,將硬件利用率提升至GPU的3-4倍; 動態稀疏性支持使推理速度比英偉達GPU快2.5倍。 · 片上超高速內存: WSE-3集成44GB SRAM,帶寬9PB/s,徹底消除對外部HBM的依賴; 內存與計算核心緊密耦合,使數據訪問延遲降低至GPU的1/1000。 Cerebras首席營銷官Julie Shin指出:“傳統GPU需通過PCIe或NVLink連接多塊芯片,而WSE的所有通信均在片內完成,這種‘零延遲’架構是性能飛躍的關鍵! 產業沖擊:重新定義AI計算架構 WSE的推出標志著AI芯片競爭進入“晶圓級”時代: 算力密度:單芯片可提供125 petaFLOPS性能,相當于10個英偉達DGX H100機架; 能效比:在相同功耗下,WSE的訓練速度是英偉達方案的8倍; 成本優勢:Cerebras宣稱其解決方案可將AI模型訓練成本降低90%。 目前,WSE已應用于美國能源部、阿斯利康等機構的超級計算機項目中。Feldman透露,下一代WSE-4將采用臺積電3nm工藝,晶體管數量突破10萬億,目標直指GPT-6級別模型的實時訓練。 未來展望:AI計算的“光刻機時刻” 行業分析師指出,WSE的商業化落地將加速AI產業分化: 云服務商:亞馬遜、微軟等巨頭或采購WSE集群以降低運營成本; 初創企業:生物醫藥、自動駕駛等領域將涌現更多“單芯片即數據中心”的創新模式; 芯片生態:英偉達、AMD或被迫加速2.5D/3D封裝技術研發,以應對晶圓級芯片的挑戰。 “這就像從機械硬盤到SSD的跨越!盋erebras首席硬件架構師Sean Lie表示,“WSE證明了單芯片即可承載超級計算機的算力,而我們的目標是在2030年前將AI推理成本降低至目前的千分之一。” 關于Cerebras Systems Cerebras成立于2016年,總部位于美國加州,專注于晶圓級AI芯片研發。其團隊核心成員來自AMD、Intel、Sun等企業,累計融資超10億美元。2025年,WSE系列芯片已占據全球AI訓練市場15%的份額,成為英偉達最強勁的挑戰者。 |