Chiplet：實現AI大模型算力跨越的關鍵之道

發布時間：2023-10-10 08:14 發布者：eechina

關鍵詞： Chiplet , AI

來源：集微網

以ChatGPT為代表的AI應用蓬勃發展，對上游AI芯片算力提出了更高的要求。半導體大廠通過不斷提升制程工藝和擴大芯片面積，推出更高算力的芯片產品加以應對。研究顯示，當5nm芯片的面積達到200mm2以上，采用Chiplet方案成本將低于單顆SoC，同時也減少了因芯片面積增加而帶來的良率損失。除了成本和良率的優勢，Chiplet技術還帶來了高速的Die to Die互連，使得芯片設計廠商可以將多顆芯粒集成在一塊芯片之中，實現算力上的大幅提升。對此，有越來越多廠商意識到，Chiplet將是AI芯片實現算力跨越的破局之道。

Chiplet為算力增長賦能

Chiplet通常被翻譯為“芯粒”或“小芯片”，通過將原來集成在一顆系統級單芯片中的多個單元分拆開來，獨立成為多個具特定功能的芯粒，分開制造后再通過先進封裝技術將彼此互聯，最終集成封裝為一個系統芯片組。對此，芯和半導體聯合創始人、高級副總裁代文亮指出，Chiplet是先進工藝制程逼近物理極限，芯片PPA（性能、功耗、尺寸）提升放緩，經濟效益降低的大背景下，應運而生的。

目前，芯片面積已經接近光罩尺寸的極限，單芯片尺寸不能超過1個光罩面積800mm2。同時，芯片的尺寸越大，落入晶圓壞點位置的概率也就越高，良率越低。更小的芯粒尺寸可以帶來更高的良率，突破光罩尺寸限制，降低制造成本。芯粒還擁有更多工藝節點可以選擇，可以將最佳節點實現的芯粒進行混合集成，從而提高研發效率，攤薄NRE（一次性工程費用）成本，縮短上市周期。人們大多聽說過“摩爾定律”。實際上，戈登·摩爾在1965年還有一個預言：“事實可能會證明，用小型功能構建大型系統，分別進行封裝和互連，性價比會更高。”

當GPT-4首次支持多模態后，文本、圖像、視頻及更多形態的數據都成為用于模型訓練的數據。從訓練到推理，從數據中心到邊緣，AI引爆的數據多模態化浪潮使得業界意識到原有的算力明顯不夠。如果說過去對算力的需求是以倍數增長，現在就是呈現指數級態勢。這就對半導體行業提出更高挑戰。

從當前的發展態勢來看，Chiplet或許正是滿足當下算力需求的關鍵技術。一方面，通過Die to Die互聯和Fabric互聯網絡，能夠將更多算力單元高密度、高效率、低功耗地連接在一起，從而實現超大規模計算。另一方面，通過將CPU、GPU、NPU高速連接在同一個系統中，實現芯片級異構，可以極大提高異構核之間的傳輸速率，降低數據訪問功耗，提高數據的處理速度，降低存儲訪問功耗，滿足大模型參數需求。

進入規模化應用階段

Chiplet技術方興未艾，全球半導體頂尖公司都在積極推出自己的產品。特斯拉Dojo深度學習和模型訓練芯片，采用Chiplet進行系統垂直重構，每個訓練Computing Tile含25顆D1 Chiplet，6個Tile+20個接口處理器形成Dojo一個Tray。AMD MI300 APU加速顯卡為全球首個CPU+GPU Chiplet，利用3D封裝技術將CPU和加速計算單元集成在一起，整顆芯片集成1460億顆晶體管，5種/21顆Chiplet。英偉達的Ampere A100 GPU采用GPU+6xHBM，通過封裝技術在中介層實現GPU和HBM之間的高速互聯。超摩科技聯合創始人、技術市場副總裁鄒桐表示，ChipLet已經進入規模化應用階段，應用于高性能計算芯片當中。

值得注意的是，在邊緣側大模型推理，對于邊緣算力的需求也是未來一大趨勢。與云計算的數據中心架構相比，大模型在邊緣端的智能計算是在一個已經訓練好、有基本智能水平的模型基礎上，當邊緣端具備多模態大模型的離線學習進化能力時，本地模型將變得私人定制化，數據也無需上傳云端。這部分推理與訓練微調過程主要依賴邊緣大模型的AI算力。

根據原粒半導體聯合創始人原鋼的介紹，針對邊緣側單任務的大模型場景，可以把模型切分到不同Chiplet進行并行計算，通過在預訓練模型的基礎上進行額外訓練，使其適應特定任務。大模型的邊緣端微調，可使用本地存儲的私有數據，或者本地新采集的數據。“SoC主控+AI Chiplet”組合可有效復用芯片主控，顯著降低成本，快速滿足各類規格需求。這將是未來該領域的重要發展方向。

核心目標是降成本提性能

當前，Chiplet應用的局限性依然明顯。根據中興微高速互聯總工程師吳楓介紹，目前Chiplet仍以國際大廠的垂直體系為主，每個廠家都在依照自己的產品體系，設計相關封閉的系統。如果想要實現不同平臺間的Die to Die互聯，仍然有待完善互聯標準。此外，Chiplet初期成本依然高企，需要有確定和相當的市場容量才能支撐。代文亮也指出，存在Die互連、先進封裝3D異構集成、設計流程及工具等挑戰，是Chiplet實現的核心問題。

Die-to-Die互連是一項核心工作。標準協議統一化是行業發展的大趨勢。Chiplet增加了互連的復雜性，但只有實現了Chiplet之間的標準化，才能有效擴大生態圈，提高復用并降低成本。對此，吳楓認為，要加強通用的Die to Die PHY IP的開發，為Chiplet提供高帶寬，低功耗、低延遲的物理層連接。在生態建設層面，應設立物理層標準，規范尺寸、擺放方式、電氣、邏輯層協議、幀格式、流程等，加強一致性和兼容性。在生態方面，應加強IP供應商、EDA設計、驗證和仿真工具、測試方案和測試工具的協同。系統級/Chiplet是多團隊、多芯粒、多廠商、多工藝節點、多功能模塊、多材料、多工具等要素融合的產品設計，需要從頂層出發協同優化整個系統。

代文亮則強調，要加強先進封裝3D異構集成技術的研發。3D異構集成是Chiplet實現的基礎，面臨諸多設計挑戰，比如互連、散熱、良率、翹曲、無源器件集成、寄生效率、成本、可靠性等。通過封裝技術才能有效實現多Chiplet的集成，包括高密度先進封裝的設計、生產、驗證，高速通道的設計、驗證，供電方案、散熱方案、應力方案、可靠性等，為Chiplet之間提供高密度高速的互聯，支持大電流供電。

應用Chiplet技術的核心目的是降低成本與提高性能。在降低成本方面，Chiplet復用是降低成本的有效手段。在提高性能方面，核心則是重構系統，將計算、存儲模塊拉近，實現系統設計、軟件適配等多方面的優化。借助Chiplet技術進行系統級協同設計，可以在多樣化的場景和需求下，實現整個芯片/系統的PPA最優化。開發流程需要匹配Chiplet架構，Chiplet之間需要協同設計、仿真、驗證，進而提高交付效率和交付質量。

本文地址：http://m.qingdxww.cn/thread-842776-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。