來源:Alpha Engineer 近日臺積電董事長Mark Liu(劉德音)在IEEE上刊登了一篇長文,標題為《How We’ll Reach a 1 Trillion Transistor GPU》。 作為全球半導體產業巨頭,Mark Liu講述了AI產業發展背后的芯片故事,視角獨特,非常值得一讀。 (1)10年內將出現萬億晶體管集成的GPU 從1997年IBM Deep Blue擊敗國際象棋大師Garry Kasparov算起,到ChatGPT、Sora的誕生,過去了整整27年。 這27年中,人工智能的能力得到了極大的提升,這背后有三大驅動力:算法架構的創新、海量數據的積累、半導體技術的革命。 可以說,半導體產業的技術革新,是人工智能發展的重要驅動力。 IBM的Deep Blue采用的是0.6微米和0.35微米的混合芯片制造工藝。 贏得ImageNet競賽的神經網絡模型,背后是基于40納米制程的芯片工藝。 在圍棋界獨霸天下的AlphaGo,采用的是28nm的制程工藝。 轟動全球的ChatGPT,則是基于4nm工藝。 ![]() 如果AI革命按現在的速度發展下去,10年內我們就需要一個萬億晶體管的GPU。 而要知道,英偉達最新發布的Blackwell架構的B200芯片,也才只有2080億個晶體管。也就是說,10年內GPU中晶體管的集成數量將有10倍的提升空間。 半導體技術進步的驅動力包括:新材料、光刻技術發展、新型晶體管、先進封裝工藝。上圖中把這四種類型的驅動因素分別呈現,一目了然。 (2)光刻工藝達到瓶頸,3D封裝成為突破口 自集成電路發明以來,半導體技術一直致力于縮小尺寸,從而能夠將更多的晶體管塞進一個拇指大小的芯片中。 現如今,隨著2.5D、3D封裝被廣泛應用,集成度提升到了新的水平。 臺積電正在將許多芯片組合成為一個緊密集成的、大規模互聯的系統。這是半導體集成領域正在發生的范式轉變。 在AI時代,晶體管的集成度變得愈發重要。這是因為光刻機在加工芯片的過程中,有一個非常重要的物理限制,即不能制造超過800 mm²尺寸的集成電路。 更具體來說,這個數字是858 mm²(26 mm ×33 mm),可以理解為光刻機可處理的芯片極限尺寸,在業內被稱為Reticle Limit。 因此,人們無法通過單純做大芯片尺寸來提升性能。 現如今,我們可以通過將多個芯片連接到一塊更大的中介層上(interposer),從而突破光刻機Reticle Limit的性能瓶頸,在單一系統中集成更多的晶體管。 例如,臺積電著名的CoWoS技術(Chip-on-Wafer-on-Substrate)可以容納多達6個掩膜板區域的計算芯片,以及十幾個HBM芯片。 ![]() (3)CoWoS先進封裝在Nvidia GPU中的應用 臺積電的CoWoS技術已經被廣泛應用于Nvidia的GPU中,包括Ampere架構及Hopper架構的GPU。 它們均由一塊GPU芯片和6個HBM共同集成在硅中介層上,計算芯片的尺寸大約是當前芯片制造工藝允許的最大尺寸。 Ampere架構的GPU采用7nm工藝,集成了540億個晶體管。 Hopper架構的GPU采用4nm工藝,集成了800億個晶體管。 制程工藝的提升使得我們能夠在相同的表面積上多封裝50%的晶體管數量,從而有效支持ChatGPT這類大語言模型的訓練及推理。 ![]() 圖:Nvidia芯片架構演進歷史,申萬宏源 (4)HBM、Bumpless Bonding:高性能GPU的基石 另一項關鍵的半導體技術是HBM。 HBM在控制邏輯IC之上,垂直堆疊了若干DRAM芯片,并采用TSV(硅通孔)進行垂直互聯,讓信號能夠穿過每個芯片的焊錫凸點,從而形成存儲芯片之間的連接。 這種將芯片堆疊在一起形成集成系統的能力,在臺積電被稱為SoIC(System-on-Integrated Chips)。 現如今,高性能GPU基本離不開HBM。 ![]() 根據臺積電的最新技術3D SoIC,可以將現在的HBM方案進行“無凸塊化”處理(bumpless bonding)。 新版HBM架構采用銅對銅的連接,用混合鍵合技術堆疊12層芯片,并且在低溫下粘合在一塊較大的邏輯芯片之上,總厚度僅為600微米。 新版HBM架構能夠提供更密集的垂直互聯,銅對銅連接的密度顯著高于焊錫凸塊所提供的集成密度。 (5)硅光:未來半導體產業最重要的技術之一 對于大語言模型而言,有高性能芯片還不夠。為了達到極高的計算速度,我們還需要提升通信速率。 現如今,光學互聯已經被廣泛應用于數據中心里的服務器機架。不久之后,我們就會需要通過基于硅光的光學接口,來將GPU和CPU封裝在一起。 這樣一來,數百臺服務器可以對外表現為一個具備統一內存的巨型GPU。 隨著AI應用需求的推動,硅光將成為未來半導體產業最重要的技術之一。 ![]() (6)CoWoS先進封裝在AMD MI300A中的應用 AMD的MI300A加速處理單元不僅僅運用了CoWoS,還用到了臺積電的SoIC技術。 MI300A同時包含了GPU和CPU核心,其中GPU負責處理AI任務所需的密集矩陣乘法運算,而CPU負責控制整個系統的運算,HBM則統一為二者提供服務。 9個基于5nm制程的計算芯片,堆疊在4個基于6nm制程的基礎芯片上,后者主要負責緩存和IO通信。處理器的計算部分包含了1500億個晶體管。 ![]() 當下,單塊GPU芯片已經達到了光刻工藝的制造極限(reticle limit),晶體管數量約1000億個。為了繼續增加晶體管集成度,勢必需要將多個chiplet通過2.5D或3D封裝的方式來集成互聯,執行運算。 幸運的是,業界已經能夠快速縮小chiplet之間垂直互聯的間距,從而提升連接密度,并且還有非常充足的提升空間。 我們認為通過垂直互聯技術的發展,晶體管的集成密度可以至少提成一個數量級,使得多芯片GPU內集成超過1萬億個晶體管。 ![]() (7)EEP仍將保持每2年翻3倍的增長趨勢 為了有效評估半導體技術創新對系統性能帶來的影響,業內有一個指標叫做EEP。 EEP的全稱是Energy-Efficient Performance,即能效性能,是能效與性能的綜合衡量標準。 過去15年來,半導體行業的EEP呈現出每2年提高3倍的趨勢。我們相信這個趨勢會繼續保持下去,其背后得益于新材料的應用、先進封裝工藝、EUV光刻技術的發展、電路及系統架構設計的優化等等。 ![]() (8)3D集成電路將迎來Mead-Conway時刻 1978年,加州理工大學教授Carver Mead以及Xero PARC研究中心的Lynn Conway發明了一種通過計算機輔助設計集成電路的方法。 它們通過一組設計規則,讓工程師能夠輕松設計超大規模的集成電路,而無需了解太多的工藝細節。 當下3D芯片設計領域也需要同樣的能力。現在一位3D芯片設計師需要了解的知識非常多,包括系統架構設計、軟硬件優化、3D封裝技術等等。 正如我們在1978年所做的一樣,我們再次需要一種通用語言,用計算機能夠理解的方式來描述3D芯片設計技術,讓設計人員可以在無需考慮底層技術的同時,自由地設計3D芯片。 類似的技術正在陸續誕生,比如一項名為3Dblox的開源標準正在被越來越多的半導體技術公司和EDA公司所采用。 ![]() (9)隧道已至終點,面向無限可能的未來 過去50年,半導體技術的發展就像是走進了一條隧道,有著明確的目標和清晰的路徑。所有人的目標只有一個:shrink the transistor。 現在,我們已經走到了隧道盡頭。從現在開始,半導體技術的發展正式進入深水區,在隧道之外有著各式各樣的可能性,等待人們去探索。 |