來源:半導體行業觀察 這兩天,AI再一次登上了各大媒體的頭條。 12月6日,谷歌官宣了了全新的多模態大模型 Gemini,包含了三個版本,根據谷歌的基準測試結果,其中的 Gemini Ultra 版本在許多測試中都表現出了“最先進的性能”,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。 而在Gemini出盡了風頭的同時,谷歌還丟出了另一個另一個重磅炸彈——全新的自研芯片TPU v5p,它也是迄今為止功能最強大的 TPU。 根據官方提供的數據,每個 TPU v5p pod 在三維環形拓撲結構中,通過最高帶寬的芯片間互聯(ICI),以 4,800 Gbps/chip 的速度將 8,960 個芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內存(HBM)分別提高了 2 倍和 3 倍。 除此之外,TPU v5p訓練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個 pod 的總可用 FLOPs 方面的可擴展性也比 TPU v4 高出 4 倍,且每秒浮點運算次數(FLOPS)增加了一倍,單個 pod 中的芯片數量也增加了一倍,大大提高了訓練速度的相對性能。 谷歌還找來了一堆科學家為TPU v5p的AI性能背書: Salesforce 高級研究科學家Erik Nijkamp表示:“我們一直在利用谷歌云TPU v5p對Salesforce的基礎模型進行預訓練,這些模型將作為專業生產用例的核心引擎,我們看到訓練速度有了顯著提高。事實上,Cloud TPU v5p 的計算能力是上一代 TPU v4 的 2 倍之多。我們還非常喜歡使用 JAX 從 Cloud TPU v4 到 v5p 的無縫輕松過渡。我們很高興能通過精確量化訓練(AQT)庫對 INT8 精確格式的原生支持來優化我們的模型,從而進一步提高速度。” Lightricks 核心生成式人工智能研究團隊負責人 Yoav HaCohen 博士表示:“利用谷歌云 TPU v5p 的卓越性能和充足內存,我們成功地訓練了文本到視頻的生成模型,而無需將其拆分成單獨的進程。這種最佳的硬件利用率大大加快了每個訓練周期,使我們能夠迅速開展一系列實驗。在每次實驗中快速訓練模型的能力促進了快速迭代,這是我們的研究團隊在競爭激烈的生成式人工智能領域的寶貴優勢。” 谷歌 DeepMind 和谷歌研究院首席科學家 Jeff Dean也力挺自家芯片:“在早期使用中,谷歌DeepMind和谷歌研究院觀察到使用TPU v5p芯片的LLM訓練工作負載的速度比TPU v4代提高了2倍。對 ML 框架(JAX、PyTorch、TensorFlow)和協調工具的強大支持使我們能夠在 v5p 上更高效地擴展。有了第二代 SparseCores,我們還發現嵌入式工作負載的性能有了顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規模的研究和工程工作至關重要。” 對于谷歌來說,Gemini是應對Open AI的一柄利器,而TPU v5p則是一塊敲門磚,用它來壘起一道抵御英偉達GPU的高墻,軟件硬件雙管齊下,似乎它在AI時代里已處在不敗之地。 問題來了,谷歌憑什么能擁有現在的優勢? 岌岌無名到名滿天下 谷歌TPU并非一蹴而就,它的自研旅途始于十年之前。 作為一家科技公司的谷歌,其實早在 2006 年就考慮為神經網絡構建專用集成電路 (ASIC),但到了 2013 年,情況變得緊迫了起來,谷歌的科學家們開始意識到,神經網絡快速增長的計算需求與數據中心數量存在著不可協調的矛盾。 當時的 Google AI負責人Jeff Dean經過計算后發現,如果有1億安卓用戶每天使用手機語音轉文字服務3分鐘,其中消耗的算力就是Google所有數據中心總算力的兩倍,而全球安卓用戶遠不止1億。 數據中心的規模不可能無限制地擴張下去,谷歌也不可能限制用戶使用服務的時間,但CPU和GPU都難以滿足谷歌的需求:CPU一次只能處理相對來說很少量的任務,GPU在執行單個任務時效率較低,而且所能處理的任務范圍更小,自研成了最后的出路。 谷歌立下了一個小目標:針對機器學習這一目的來構建特定領域計算架構(Domain-specific Architecture),還要將深度神經網絡推理的總體擁有成本(TCO)降低至原來的十分之一。 通常,ASIC 的開發需要數年時間,但谷歌卻僅用了 15 個月就完成了TPU處理器的設計、驗證、制造并部署到數據中心。TPU 項目的技術負責人 Norm Jouppi(也是 MIPS 處理器的主要架構師之一)這樣描述沖刺階段: “我們的芯片設計速度非常快。這確實非常了不起。我們在沒有修正錯誤或更改掩膜的情況下,就開始出貨第一個芯片。考慮到我們在構建芯片的同時還在招聘團隊,然后招聘 RTL(電路設計)人員,并急于招聘設計驗證人員,這一切都非常忙碌。” 代表著谷歌技術結晶的初代TPU 采用了 28 納米工藝制造,運行頻率為 700MHz,運行時功耗為 40W,谷歌將處理器包裝成外置加速卡,安裝在 SATA 硬盤插槽中,實現即插即用。TPU 通過 PCIe Gen3 x16 總線與主機連接,可提供 12.5GB/s 的有效帶寬。 與 CPU 和 GPU 相比,單線程 TPU 不具備任何復雜的微架構功能,極簡主義是特定領域處理器的優點,谷歌的TPU一次只能運行一項任務:神經網絡預測,但每瓦性能卻達到了GPU的30倍,CPU的80倍。 谷歌在這件事上表現得非常低調,直到2016年的Google I/O開發者大會上,首席執行官Sundar Pichai才正式向世界展示了TPU這一自研成果。 Pichai對參會的嘉賓表示,DeepMind研發的AlphaGo能夠擊敗韓國棋手李世石,底層硬件里的TPU功不可沒,TPU就像希臘神話中引發特洛伊戰爭的女人——海倫,它的出現引起了“成千芯片與之競逐”。 但谷歌并未止步于此,幾乎是在第一代TPU完成后,就立刻投入到了下一代的開發當中:2017年,TPU v2問世;2018年,TPU v3推出;2021年,TPU v4在Google I/O開發者大會上亮相…… 而谷歌對于AI芯片也愈發得心應手:第一代 TPU 僅支持 8 位整數運算,這意味著它能進行推理,但訓練卻遙不可及;而TPU v2,不僅引入了HBM內存,還支持了浮點運算,從而支持了機器模型的訓練和推理;TPU v3則在前一代基礎上,重點加強了性能,且部署在 Pod 中的芯片數量翻四倍。 到了TPU v4,Pichai更是驕傲地表示:“AI技術的進步有賴于計算基礎設施的支持,而TPU正是Google計算基礎設施的重要部分。新一代TPU v4芯片的速度是v3的兩倍多。Google用TPU集群構建出Pod超級計算機,單臺TPU v4 Pod包含4096塊v4芯片,每臺Pod的芯片間互連帶寬是其他互連技術的10倍,因此,TPU v4 Pod的算力可達1 ExaFLOP,即每秒執行10的18次方浮點運算,相當于1000萬臺筆記本電腦的總算力。” 到了2023年的今天,TPU已經成為了AI芯片的代名詞之一,成為了繼CPU和GPU后又一重要的處理器,它部署在谷歌數十座數據中心當中,每天完成著數以億計的AI計算任務。 谷歌的自研帝國 TPU只是谷歌自研的序幕。 2017年的Google Cloud Next '17 大會上,谷歌推出了名為Titan的定制安全芯片,它專為硬件級別的云安全而設計,通過為特定硬件建立加密身份,實現更安全的識別和身份驗證,從而防范日益猖獗的BIOS攻擊。 Titan芯片面向的并不全是谷歌自己,它的出現是為了說服企業,數據存在谷歌云中比企業的本地數據中心更安全,谷歌表示,自研的Titan芯片通過建立強大的基于硬件的系統身份,來驗證系統固件和軟件組件,保護啟動的過程,這一切得益于谷歌自己創建的硬件邏輯,從根本上減少了硬件后門的可能性,基于Titan的生態系統也確保了設施僅使用授權且可驗證的代碼,最終讓谷歌云擁有了比本地數據中心更安全的可靠性。 Titan的出現,只不過是小試牛刀,2021年3月,谷歌在ASPLOS 會議上首次介紹了一塊應用于YouTube服務器的自研芯片,即Argos VCU,它的任務很簡單,就是對用戶上傳的視頻進行轉碼。 根據數據統計,用戶每分鐘會向YouTube上傳超過500小時的各種格式的視頻內容,而谷歌則需要將這些內容快速轉換成多種分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和各種格式(例如,H.264、VP9或AV1),沒有一塊具備強大的編碼能力的芯片,想要快速轉碼就是一件不可能的事情。 谷歌嘗試過兩種解決方案,第一種是英特爾的視覺計算加速器(VCA),包含三個 Xeon E3 CPU,內置 Iris Pro P6300/P580GT4e 集成圖形內核和先進的硬件編碼器,第二種則是利用英特爾至強處理器外加軟件編碼來完成任務。 但不論是前者還是后者,都需要龐大的服務器規模和巨額的電力損耗,于是,谷歌開啟了又一塊自研芯片——VCU的研發。負責監督 YouTube 龐大基礎設施的 Google 工程副總裁斯科特·西爾弗 (Scott Silver) 表示,從2015年開始,大約有 100 名 Google 工程師組成的團隊投身設計第一代Argos 芯片,在此后幾年當中,這支團隊不僅完成了研發,還讓芯片應用在谷歌的數據中心當中,而Argos的實力也得以展現——它處理視頻的效率比傳統服務器高 20 到 33 倍,處理高分辨率 4K 視頻的時間由幾天縮短為數小時。 下一代Argos或許早已悄悄在谷歌服務器中上線了,根據報道,谷歌自研的第二代VCU將支持 AV1、H.264 和 VP9 編解碼器,可以進一步提高其編碼技術的效率,也將會是YouTube內容創作生態的最有力支撐。 而谷歌最強的大招還得是最復雜的手機SoC。2021年10月19日,一場秋季發布會上,搭載谷歌首款自研芯片 Tensor 的旗艦手機 Pixel 6 系列首次亮相。 谷歌高級副總裁 Rick Osterloh 在發布會上表示,這款芯片是“公司歷史上最大的移動硬件創新”,而谷歌CEO Sundar Pichai更是早早地在推特上曬出了Tensor芯片的照片,對于自研項目的自豪感溢于言表。 不過這塊自研芯片,實質上是基于三星在2020年開放的半定制芯片設計的服務,在TechInsights的拆解圖中,Tensor的封裝尺寸為 10.38mm x 10.43mm = 108.26mm 2,內部芯片標識為“S5P9845”,符合傳統三星Exynos處理器命名規則,如Exynos 990的芯片標識為S5E9830,Exynos 2100 5G SoC芯片標識為S5E9840,本質上是谷歌定義,三星設計代工的一塊芯片。 即便如此,谷歌的自研芯片的布局也已初具雛形,從TPU到Titan,從VCU到Tensor,谷歌走過了十年的旅程,而它試圖全盤掌握這個硅片組成帝國的野心也昭然若揭。 谷歌的聰明帳與絆腳石 對于谷歌來說,要錢有錢,要技術有技術,要應用場景有應用場景,可以說是各大科技巨頭中在自研AI芯片這條路上走得最遠的,其他廠商目前還在源源不斷地給英偉達賬戶打錢,但谷歌卻早已做好了兩手準備,不少人甚至將它視為如今英偉達壟斷局面的最強挑戰者。 與微軟和亞馬遜相比,谷歌最突出的優勢,就是從系統級的角度設計TPU,單個芯片固然重要,但在現實世界中如何在系統中組合使用則更為重要。雖然英偉達也從系統角度思考問題,但他們的系統規模比谷歌更小,范圍也更窄。而且谷歌還在 TPU 之間使用了定制的網絡堆棧 ICI。與昂貴的以太網和 InfiniBand 部署相比,這種鏈路延遲低、性能高,類似于英偉達的 NVLink。 事實上,谷歌的 TPUv2 可以擴展到 256 個 TPU 芯片,與英偉達的 H100 GPU 數量相同。在 TPU v3 和 TPU v4 中,這一數字分別增加到了 1024 和 4096個。根據趨勢線,而最新的 TPU v5p 則可以擴展到 8960 個芯片,而無需通過低效的以太網。 此外,谷歌在OCS、拓撲結構、DLRM 優化上也具有獨到的優勢,十年來積攢的經驗優勢幫助谷歌的TPU在數據中心里和AI大模型中大展身手,在具體應用中,用遙遙領先來形容也不過分,未來谷歌完全擺脫英偉達GPU的掣肘,也并非不可能。 不過,谷歌還有一個不大不小的絆腳石。 TPU的自研始于2013年,能在15個月里快速部署到數據中心,同時實現快速迭代性能猛增,除了夜以繼日的谷歌研究人員外,另外一家公司提供的幫助也極其重要。 根據2020年摩根大通分析師哈蘭·蘇爾的報告,谷歌TPU v1至v4這幾代均是由博通共同設計的,當時它已經開始生產采用7nm 工藝的TPU v4,并開始與谷歌合作設計采用5nm工藝的TPU v5 蘇爾表示,博通的專用集成電路(ASIC)業務2020全年收入為 7.5 億美元,高于 2016 年的 5000 萬美元,除了芯片設計之外,博通還為谷歌提供了關鍵的知識產權,并負責了制造、測試和封裝新芯片等步驟,以供應谷歌的新數據中心,博通還與其他客戶如Facebook、微軟和AT&T等公司合作設計ASIC芯片。 而根據2022年博通的財報,其將 ASIC 收入分為兩部分:路由和交換以及計算卸載。計算卸載在數據中心內分兩步處理。當提出計算請求時,路由器和交換機會決定由數據中心的哪個部分來處理這項工作。一旦決定,處理器(通常是 CPU 或 GPU,如 Nvidia 設計的處理器)就會進行計算,然后由這些路由器和交換機再次通過互聯網或專用網絡發送回最終用戶。 就收入而言,博通是全球第二大人工智能芯片公司,僅次于英偉達,其ASIC的銷售額達數十億美元,而這正是谷歌為響應微軟與 OpenAI 合作而加大 TPU 部署的結果,光是一家谷歌的TPU就讓博通的ASIC收入翻了兩番還多,谷歌沒交給英偉達的人工智能稅,以另一種形式進了博通的口袋。 無論是哪家公司,都不會心甘情愿繼續交這筆錢的,因而在今年9月就傳出了谷歌準備在2027年前結束與博通的合作關系,消息人士稱,谷歌高管已經設定了放棄博通的目標,轉而開始考慮起了它的競爭對手Marvell,此前兩家公司就TPU 芯片的定價問題陷入了長達數月的僵局。 雖然后面谷歌官方又出來辟謠,表示目前沒有計劃改變與博通的合作關系,但私底下兩家不合已經是人盡皆知的事情了。 谷歌在TPU上算了一筆聰明帳,在微軟等巨頭乖乖交錢的時候,它掏出了TPU v5p來對抗英偉達,但它沒想到的是,幾年前還不起眼的ASIC合作,如今卻成了TPU發展路上最大的一顆絆腳石,只要擴大TPU的部署規模,就得不斷加錢給博通。 如此想來,巨頭們真的是躲得過初一,躲不過十五,躲過了英偉達GPU高達70%的利潤,卻躲不過像博通這樣的合作公司,微軟這些巨頭,想要在AI芯片上省錢,今后難免會遇到像谷歌今日一般的困局吧。 |