How AI is Challenging Data Center Infrastructures 作者:安森美高級總監,Aditya Jian 在加密貨幣和人工智能/機器學習(AI/ML)等新興應用的驅動下,數據中心的能耗巨大,并將快速增長以滿足用戶需求。根據國際能源署(IEA)的最新報告,2022 年數據中心的耗電量將達到 460 TWh(太瓦時),約占全球總用電量的 2%。在美國,擁有全球三分之一的數據中心,耗電量為 260 TWh,占總用電量的 6%。 預測未來具有挑戰性,這取決于部署了多少非常耗電的圖形處理單元(GPU)來應對人工智能技術的需求,當然還取決于進一步增加空調來降低數據中心的溫度。國際能源署的報告顯示,到 2026 年,數據中心的耗電量將至少增長到 650 TWh(40%),但也可能高達 1,050 TWh(128%)。 數據中心支持人工智能趨勢 人工智能是一項極其耗電的技術,支持其運行的數據中心需要具備足夠的算力和電力輸送能力。 瑞典RISE研究機構最近的一項研究清楚地展示了由于該技術迅速普及所帶來的巨大變化。例如,ChatGPT在2022年11月推出后僅五天內就達到了100萬用戶。他們在兩個月內就擁有了 1 億用戶,而TikTok達到同一用戶量級用了9個月,Instagram則用了兩年半的時間。 作為參考,在谷歌上進行一次搜索僅需 0.28 Wh,相當于讓一個60W的燈泡亮17秒。 相比之下,訓練 GPT-4 需要 1.7 萬億個參數和 13 萬億個tokens(單詞片段),這是一個完全不同的命題。要做到這一點,需要包含 25,000 個英偉達 A100 GPU的多臺服務器,每臺服務器的功耗約為 6.5 kW。OpenAI 表示,訓練耗時 100 天,耗能約 50 GWh,耗資 1 億美元。 顯然,人工智能將極大地改變數據中心的游戲規則,其所需的計算能力和能耗水平將遠遠超過我們迄今為止所看到的任何水平。 數據中心 48V 架構 早期的數據中心采用集中式電源架構 (CPA),將主電源(電網)電壓集中轉換為 12V(母線電壓),然后將其分配給各服務器,并使用相對簡單的轉換器在本地將其轉換為5V 或 3.3V邏輯電平。 然而,隨著功率需求的增長,12V 母線上的電流(以及相關損耗)變得高得令人無法接受,迫使系統工程師改用48V 母線布置。根據歐姆定律,電流減少了 4 倍,損耗則降低了 4 倍的平方。這種配置被稱為分布式電源架構 (DPA)。 與此同時,處理器和其他一些元器件的電壓也在不斷降低,最終降至亞伏特級別,導致需要多個次級電壓軌。為解決這一問題,采用了二階轉換技術,通過DC-DC轉換器(稱為中間母線轉換器 - IBC)將 48V 電壓轉換為 12V 母線,再根據需要從 12V 母線輸出其他電壓。 圖1 服務器電源系統的結構 對高能效 MOSFET的需求 數據中心內部的電力損耗給運營商帶來了挑戰。首先,也是最明顯的一點是,他們正在為那些無助于服務器運行的電力付費。其次,任何浪費的能源都會轉化為熱量,這就必須設法處理。由于超大規模AI服務器的功率需求高達 120 kW(而且肯定會隨著時間推移而增加),即使在 50% 負載的情況下,以 97.5% 的峰值效率計算 2.5% 的損耗,每臺服務器也會浪費 1.5 kW的電力,相當于一臺全時運行的電加熱器。 處理熱量可能需要在功率轉換系統中采取散熱措施,如散熱器或風扇。這些措施會增大電源的體積,占用本可用于更多計算能力的空間,就風扇而言,還會耗費電能并增加成本。由于數據中心內的溫度需要嚴格控制,過高的損耗也會使環境溫度升高,這意味著需要更多的空調來降溫。這既是資本支出,也是運營成本,同時還占用空間。 顯然,盡可能高效地將主(電網)電壓轉換為驅動人工智能 GPU 和其他設備供電所需的電壓,對數據中心運營商來說大有裨益。 因此,多年來人們在電源拓撲結構方面做了大量工作,在前端 PFC 階段引入了圖騰柱PFC (TPPFC) 等技術,以提高其效率。此外,為了提高效率,二極管整流器已被 MOSFET 所取代,并引入了同步整流等技術。 優化拓撲結構只是其中的一半,要優化效率,所有元件也必須盡可能高效,尤其是對轉換過程至關重要的 MOSFET。 當 MOSFET 用于開關電源轉換時,主要有兩種形式的損耗:導通損耗和開關損耗。導通損耗由漏極和源極之間的電阻(RDS(ON))造成,在電流流動時一直存在。開關損耗是由柵極電荷 (Qg)、輸出電荷 (QOSS) 和反向恢復電荷 (Qrr) 共同造成的,這些電荷在每個開關周期都會得到補充。由于目前的趨勢是提高開關頻率以減小磁性元件的尺寸,因此隨著補充頻率的增加,這種損耗也會變得相當顯著。 顯然,特定 MOSFET 的導通損耗和開關損耗越低,電源系統的整體轉換效率就越高。 PowerTrench T10 MOSFET 簡介 同步整流現在已成為所有高性能、大電流、低壓電源轉換應用中的關鍵技術,特別是在數據中心服務器的應用中更是如此。在這種應用中,包括RDS(ON)、Qg、QOSS和Qrr在內的幾個MOSFET參數會直接影響轉換效率,器件制造商正努力尋求減小這些影響的方法。 安森美的 PowerTrench T10 MOSFET 采用新型屏蔽柵極溝道設計,實現了超低的 Qg 值,且 RDS(ON) 低于 1mOhm 。最新的 PowerTrench T10 技術不僅減少了振鈴、過沖和噪聲,其業界先進的軟恢復體二極管還降低了 Qrr。這在導通電阻性能和恢復特性之間實現了良好的折中平衡,同時還可實現具有良好反向恢復特性的低損耗快速開關。 總體而言,PowerTrench T10 器件在參數方面的改進提高了中低壓、大電流開關電源解決方案的效率。通常情況下,開關損耗比上一代器件最多可降低 50%,而導通損耗可降低 30%-40%。 安森美推出了PowerTrench T10技術的40V系列和80V系列產品。NTMFWS1D5N08X(80V、1.43mΩ、5mm x 6mm SO8-FL 封裝)和 NTTFSSCH1D3N04XL(40V、1.3mΩ、3.3mm x 3.3mm 源下雙冷卻封裝)為人工智能數據中心應用中的電源單元(PSU)和中間母線轉換器(IBC)提供了同類極佳的效率(FOM)。它們達到了開放式機架(Open Rack) V3 規范要求的 97.5% 的 PSU 效率和 98% 的 IBC 效率。 圖 2 PowerTrench T10 MOSFET 的優勢 結語 人工智能革命已經到來,沒有人能夠完全確定它對數據中心未來的電力輸送需求究竟意味著什么。不過,可以肯定的是,一系列新的挑戰已經出現。房地產資源稀缺和電網的限制使得很難找到容量充足的新地點。關鍵 IT 方面的總體電力需求激增,給電力成本帶來沉重負擔。為了滿足這些需求,數據中心業主不僅要建設新設施,還要將現有設施推向極限,力求實現每平方英尺兆瓦級的高密度配置。 隨著功率水平肯定會超過 100 kW,功率轉換將成為關鍵重點,以實現高效運行,確保散熱,可靠地提高功率密度,并在狹窄的現代數據中心中節省空間。 安森美的 PowerTrench T10 技術提供了業界先進的 RDS(ON)、更高的功率密度、降低開關損耗,以及更好的熱性能,從而降低總系統成本。PowerTrench T10 等創新功率半導體技術將成為未來的關鍵組成部分。 |