來源:半導體行業觀察 設計芯片并將其引導至代工、封裝和組裝是一個復雜而困難的過程,如果國家層面不具備這些技能,將對這些國家的競爭力產生深遠影響。 在許多方面,歐洲的行為更像一個國家,超級計算當然也是如此,過去幾十年來,超級計算一直是一項合作事業。2010 年代末,正當 HPC 加速計算的浪潮在人工智能領域達到高潮時,歐洲厭倦了依賴美國和日本供應商的超級計算機計算引擎,并成立了歐洲處理器計劃,以創建本土的歐洲計算引擎,并成立了歐洲 HPC 合資企業,為整個歐洲安裝的百億億次級和百億億次級系統提供資金。迄今為止,已為三個百億億次級系統編制了預算。 EPI 處理器和加速器路線圖上出現了一些坎坷和延誤,但歐洲仍然致力于在當前情況下盡可能實現百億億次系統所用計算引擎的本土化。 當我們進一步了解歐洲第二個百億億次級系統時,我們想到了這一點,該系統將被稱為“Alice Recoque”,并將在法國運行,與此同時,我們也在思考 SiPearl 推遲推出其第一代“Rhea1”基于 Arm 的處理器,該處理器將設計為 EuroHPC 聯盟的主機處理器,該聯盟正在 EPI 努力下推動 CPU 和加速器的設計。 處理器交付延遲是芯片行業的常態,而非例外,盡管從外部來看可能并非如此。芯片設計者/銷售商(我們不愿使用“制造商”這個名詞,因為如今除了英特爾以外,他們通常不生產芯片)內置緩沖區,這就是他們堅持相當常規的路線圖的方式。設計 Rhea 系列 CPU 的 SiPearl 芯片初創公司正在實時學習所有這些技能,這些 CPU 旨在用作歐洲百億億次級超級計算機的主處理器以及 HPC 領域常見的僅 CPU 工作負載的計算引擎。它在設計第一款芯片時已經耗盡了大量緩沖區。這對于 EPI 工作和歐洲的百億億次級愿望來說都是不幸的,但歐洲在試圖培養本土芯片技術時有應急計劃。 你必須在這里打一場長期的比賽,包括投資鑄造廠和封裝公司,以便他們在歐洲建立先進的工廠,如果你想要能夠自力更生,正如歐洲肯定做的那樣。 SiPearl 是一家位于法國巴黎郊外的初創公司,其 Rhea1 CPU是“Jupiter”百億億次級超級計算機的核心,該超級計算機將于今年在德國于利希研究中心安裝。EuroHPC JV 尚未透露有關最終 Jupiter 配置的大量細節,但我們知道 Jupiter 系統中所謂的“GPU Booster”部分可能基于 Nvidia 的“Grace”CG100 Arm 服務器芯片和“Hopper”H100 GPU 加速器超級芯片。我們之所以說“可能”,是因為我們認為,當 Jupiter 的 GPU Booster 模塊在今年晚些時候啟動時,很有可能基于 Nvidia 的“Blackwell”B100 GPU,與 H100 相比,其 FP64 性能提高了 2.3 倍,預計增量成本約為 1.6 倍。 在 6 月份的 500 強超級計算機排行榜上,我們一窺了 Jupiter 系統的大部分計算能力,當時 FZJ 展示了一個名為“Jedi”的原型系統,該系統由 Grace-Hopper 超級芯片組成,通過同樣來自 Nvidia 的四軌 200 Gb/秒 NDR InfiniBand 網絡連接。Jedi 是 Jupiter Exascale Development Instrument 的縮寫,它有 24 個 Grace-Hopper 超級芯片,在 FP64 性能上峰值為 5.1 petaflops,在高性能 LINPACK 基準測試中峰值為 4.5 petaflops。重要的是,在 67.3 千瓦的功耗下,這架 Grace-Hopper 系統每瓦可提供 72.7 gigaflops,這使其成為各種 HPC 基準測試中能效最高的機器。Blackwell GPU 可能會將 GPU Booster 的能效推得更高。 我們推測,為了挽回面子,并讓 Rhea1 經受真正的壓力測試,EuroHPC 和 EPI 都希望 Jupiter 的通用集群(也稱為集群模塊)仍然基于 Rhea1 處理器,即使這款 CPU 的交付時間已經推遲到 2025 年,盡管它基于 Arm 的 Neoverse“Zeus”V1 內核。 但無論如何,由于 EPI 并未為 Jupiter 提供可以取代 Nvidia GPU 的 RISC-V 加速器(我們認為它仍將嘗試這樣做),因此由于 GPU 助推器已切換到 Nvidia 超級芯片,因此將有大量 Arm 內核可用于運行僅使用 CPU 的應用程序。 Jupiter 的絕大部分計算能力將集中在 GPU 加速節點上。通過在 GPU Booster 節點中使用 Nvidia 超級芯片,將有大量 Grace 處理器可用——準確地說,每個 Hopper 或 Blackwell GPU 都有一個。要在 LINPACK 測試中輕松突破 1 exaflops 的性能,可能需要 32,000 個帶有 H100 的節點和 16,000 個帶有 B100 的節點,因此將需要 32,000 或 16,000 個 Grace CPU,每個 CPU 有 72 個內核,總共 230 萬或 115 萬個內核。我們認為后者在 GPU 性能和能效方面是理想的,但很難說 EuroHPC 是否能讓 Nvidia 放棄 Blackwell GPU 來為 Jupiter 系統服務。如果 Nvidia 在 Jupiter 時間范圍內只有 H100,那么 FZJ 將獲得兩倍的 Grace 核心,因為它正在等待 Rhea1 的交付和基于它的通用集群。 相比之下,FZJ 的“Juwels”系統基于英特爾“Skylake”Xeon 8168 處理器,具有 114,840 個內核,峰值聚合 FP64 性能為 9.9 petaflops。較新的“Juwels Booster”系統于 2020 年安裝,擁有 449,280 個 AMD Epyc 7402 處理器內核,峰值額定速度略低于 71 petaflops。我們根據布里斯托大學安裝的 Isambard 3 系統中使用的 Grace-Grace 超級芯片的性能得出的猜測是,Jupiter 的 GPU Booster 中的 32,000 個 Grace CPU 本身將在 FP64 下提供約 225 petaflops 的性能。這是 FZJ 目前安裝的 Juwels 和 Juwels Booster 全 CPU 系統的全 CPU 性能的 2.8 倍。 Rhea1 對此添加的任何內容都是漸進的且好的,并且為 Rhea1 創建的軟件可以在 Grace 上運行,反之亦然,因為它們都遵守 Arm 標準。 正如我們之前在 2023 年 4 月報道的那樣,Rhea1 預計將擁有 72 個基于 Arm 的“Zeus”V1 內核的內核,并將于今年上市。在最近的一次延遲之后,SiPearl 現在表示,它將在 2025 年的某個時候提供最多 80 個內核的 Rhea1。這意味著在恒定時鐘速度下吞吐量將提高 11%,這有助于稍微緩解延遲問題。 我們認為最初的計劃是使用臺灣半導體制造公司的 7 納米工藝來生產 72 個內核,而在此過程中,SiPearl 轉向了臺積電的 7 納米工藝的 N6 改進版,并能夠在設計中添加另外 8 個活動內核。(84 個內核更容易添加,因為最初的設計似乎是每列 12 個內核,而為了實現良率可能會損失 4 個內核。) Rhea1 芯片混合了 DDR5 主內存和 HBM2e 堆疊內存,據我們所知,混合內存子系統是導致該處理器延遲的原因。我們在 2020 年看到的規格顯示它有四個 DDR5 內存控制器,但現在我們看到它也有四個 HBM2e 內存堆棧,來自三星。該芯片的 I/O 控制器預計還將有 104 條 PCI-Express 5.0 通道。 還有一件事需要考慮:Nvidia在 Grace CPU 中使用了“Demeter”V2 內核,這一點很重要。亞馬遜網絡服務 (Amazon Web Services ) 即將推出的“Graviton4”自主研發處理器也使用了這些V2 內核。Rhea1 中使用的 Zeus 內核中的 V1 內核有一對 256 位 SVE2 矢量引擎,但 V2 內核有四個 128 位矢量,在某些類型的處理中效率更高。 無論如何,按照某種思維方式,32,000 個 Grace-Hopper 超級芯片在 LINPACK 上達到每秒百億億次浮點運算的峰值 FP64 性能要比在 FZJ 上達到 16,000 個 Grace-Blackwells 更好,因為這樣可以獲得兩倍的 CPU 數量。 這將帶我們走進將安裝在 GENCI 的 Alice Recoque 系統,該系統由 CEA(法國相當于美國能源部)運營,并由法國和荷蘭政府以及 EuroHPC JV 集體出資。 Rhea2 芯片預計將由兩個芯片組成,根據上述路線圖,從今年早些時候開始,它預計將于 2025 年完成,使用 Rhea2 的百億億次級系統(復數)將于 2026 年在歐洲安裝。我們猜測兩個芯片至少各有 64 個內核,性能將提高 1.6 倍。Rhea2 可能會嘗試將內核數量推至 192 個,每個芯片有 96 個內核。這將是 Rhea1 內核數量的 2.4 倍,但我們認為時鐘速度必須略有降低,因此最終性能可能只有 2 倍。 如果 SiPearl 想要避免 Rhea2 芯片的麻煩,我們強烈建議該公司與 Arm 合作,使用“Poseidon”V3 核心及其“Voyager”計算子系統 (CSS) V3 包。這將有助于所有芯片設計人員簡化流程并加快開發速度。因為沒有時間嘗試從頭開始做所有事情,以滿足 Rhea2 和 Alice Recoque 系統進入 GENCI 并由 CEA 運行的 2026 年最后期限。 Arm 早在 2023 年 8 月就啟動了 CSS 計劃,并展示了如何采用 CSS 堆棧(包括內核、網格互連、I/O 控制器等)來節省 80 個工程師年的工作量。由于只有 190 名員工,并且只有兩年時間推出 Rhea2,即 380 個工程師年,SiPearl 似乎是 Voyager CSS V3 套件的理想候選者。 在上表中,Jupiter 機器有 32,000 個 Grace-Hopper 節點。在其他機器中,當有 GPU 時,CPU 基本上被忽略,但出于上述原因,我們認為 Jupiter 不會出現這種情況。有傳言稱 Rhea1 集群將只有 1,300 個節點。這性能不是很好。 我們認為 EuroHPC JV 確實希望在 Alice Recoque 系統的所有節點中都使用 Rhea2,并且希望在系統中基于 RISC-V 架構加速“Hurricane”EPAC。我們認為每個 Rhea2 CPU 上都會連接大量此類 EPAC 協處理器,我們還認為它們將以四比一的 CPU 和加速器比例配置。我們不知道 Hurricane 設備的性能如何或效率如何,因此我們無法估計需要多少設備才能突破 LINPACK 上的 1 exaflops 障礙。 如果這一切都失敗了,那么 EuroHPC JV 可以資助一個基于 Nvidia 電機的系統,使用未來的“Vera”Arm 服務器 CPU 和“Rubin”GPU 加速器,然后就完事了。 我們還認為,Alice Recoque 不由法國系統制造商和 IT 服務供應商 Atos 的超級計算子公司 Eviden 打造是不可想象的。 Alice Recoque 系統的預算為 5.42 億歐元(5.802 億美元),其中 2.71 億歐元(2.911 億美元)來自 EuroHPC JV,2.63 億歐元(2.815 億美元)來自法國政府,800 萬歐元(860 萬美元)來自荷蘭政府。 順便說一句,歐洲第二臺百億億次級計算機系統的名字來源于愛麗絲·阿爾諾·雷科克,她于 1929 年出生于阿爾及利亞,并于 1954 年在巴黎高等電子與電氣工程學院(相當于法國的麻省理工學院)獲得工程學研究生學位。畢業后,她在 Société d'Electronique et d'Automatisme (SAE) 工作,幫助設計了多代小型計算機,特別是 Mitra 系列,該系列是為了與 Digital Equipment Corp 的 PDP 和 VAX 系列競爭而創建的。1985 年,她轉投 Bull Group,從事并行超級計算機和人工智能方面的工作,同時還擔任多所法國著名大學的計算機科學教授。 |