前陣子,DeLL'ORO GROUP發(fā)布預(yù)測(cè)報(bào)告,回顧了23年數(shù)據(jù)中心基礎(chǔ)設(shè)施報(bào)告中的突出趨勢(shì),及展望了2024年數(shù)據(jù)中心基礎(chǔ)設(shè)施的發(fā)展情況,以下是報(bào)告內(nèi)容。
2023年預(yù)測(cè)中強(qiáng)調(diào)的突出趨勢(shì)
正如2022年支出大幅增長(zhǎng)后所預(yù)測(cè)的那樣,2023年數(shù)據(jù)中心資本支出增長(zhǎng)明顯放緩。美國(guó)四大云服務(wù)提供商(SP)總體上在2023年大幅放緩了資本支出,亞馬遜和Meta正在經(jīng)歷消化周期,而微軟和谷歌有望增加加速計(jì)算部署和數(shù)據(jù)中心的greenfield(未開(kāi)發(fā)地區(qū))支出。盡管人工智能相關(guān)投資在2023年下半年出現(xiàn)好轉(zhuǎn)跡象,但由于宏觀經(jīng)濟(jì)和監(jiān)管不利因素導(dǎo)致云需求依然疲軟,中國(guó)云服務(wù)提供商市場(chǎng)依然低迷。企業(yè)服務(wù)器和存儲(chǔ)系統(tǒng)市場(chǎng)的表現(xiàn)差于預(yù)期,因?yàn)橛捎趲?kù)存調(diào)整以及經(jīng)濟(jì)不確定性導(dǎo)致終端需求下降,大多數(shù)OEM預(yù)計(jì)2023年收入增長(zhǎng)將出現(xiàn)兩位數(shù)下降。然而,網(wǎng)絡(luò)和物理基礎(chǔ)設(shè)施OEM在2023年表現(xiàn)更好,因?yàn)?023年上半年實(shí)現(xiàn)了強(qiáng)勁的積壓出貨量,從而提升了收入增長(zhǎng)。
我們低估了加速計(jì)算投資對(duì)2023年人工智能應(yīng)用的影響。在那一年,我們看到支出從通用計(jì)算轉(zhuǎn)向加速計(jì)算以及網(wǎng)絡(luò)和物理基礎(chǔ)設(shè)施的補(bǔ)充設(shè)備。AI訓(xùn)練模型變得越來(lái)越大、越來(lái)越復(fù)雜,需要GPU和網(wǎng)絡(luò)連接等加速器的最新進(jìn)展。部署的人工智能相關(guān)基礎(chǔ)設(shè)施的高成本有助于抵消通用計(jì)算市場(chǎng)的急劇下滑。然而,鑒于新超大規(guī)模的強(qiáng)勁需求,加速器的供應(yīng)仍然緊張。
盡管英特爾和AMD推出了第四代處理器,對(duì)CPU進(jìn)行了重大更新,但到2023年,通用計(jì)算已讓位于加速計(jì)算。這些新服務(wù)器平臺(tái)采用最新的服務(wù)器互連技術(shù),例如PCIe 5、DDR5,以及更重要的CXL。CXL能夠聚合跨服務(wù)器的內(nèi)存使用情況,從而提高整體利用率。然而,通用服務(wù)器需求一直疲軟,向第四代CPU平臺(tái)的過(guò)渡比預(yù)期慢(盡管AMD在2023年第三季度取得了重大進(jìn)展)。此外,CXL的采用僅限于超大規(guī)模市場(chǎng),用例有限。
服務(wù)器連接的發(fā)展速度比我們一年前的預(yù)期要快。特別是,加速計(jì)算的速度轉(zhuǎn)換周期至少比主流市場(chǎng)領(lǐng)先一代。目前,配備NVIDIA H100 GPU的加速服務(wù)器具有高達(dá)400Gbps的網(wǎng)絡(luò)適配器和112Gbps SerDes,一年后下一代GPU 的帶寬將增加一倍。此外,智能NIC的采用繼續(xù)得到普及,但主要局限于超大規(guī)模市場(chǎng)。根據(jù)我們的以太網(wǎng)適配器和智能網(wǎng)卡報(bào)告,智能網(wǎng)卡收入在2023年增長(zhǎng)了50%以上。
邊緣計(jì)算市場(chǎng)的實(shí)現(xiàn)進(jìn)展緩慢,我們?cè)谧罱碾娦欧⻊?wù)器報(bào)告中降低了預(yù)測(cè),因?yàn)樾枰_(kāi)發(fā)生態(tài)系統(tǒng)和更具吸引力的用例,并且早期采用者之外的其他采用者受到限制。
根據(jù)我們的數(shù)據(jù)中心IT資本支出報(bào)告,隨著市場(chǎng)狀況正常化,我們預(yù)計(jì)數(shù)據(jù)中心資本支出將在2024年恢復(fù)兩位數(shù)增長(zhǎng)。加速計(jì)算仍將處于超大規(guī)模和企業(yè)市場(chǎng)資本支出計(jì)劃的前沿,以支持人工智能相關(guān)和其他特定領(lǐng)域的工作負(fù)載。考慮到加速服務(wù)器的高成本及其專門的網(wǎng)絡(luò)和基礎(chǔ)設(shè)施要求,最終用戶將需要在資本支出優(yōu)先事項(xiàng)上更具選擇性。雖然通用服務(wù)器的部署預(yù)計(jì)將在2024年反彈,但我們相信將更加重視提高服務(wù)器效率和利用率,同時(shí)限制成本增加。
下面,我們重點(diǎn)介紹了可以增強(qiáng)整體服務(wù)器占用空間優(yōu)化并降低最終用戶總擁有成本的主要趨勢(shì):
加速計(jì)算保持發(fā)展勢(shì)頭
我們預(yù)計(jì)2023年服務(wù)器單位出貨量將加速增長(zhǎng)11%,并預(yù)計(jì)五年復(fù)合增長(zhǎng)率接近30%。加速服務(wù)器包含GPU、FPGA或自定義ASIC等加速器,在與特定領(lǐng)域的工作負(fù)載匹配時(shí)比通用服務(wù)器更高效。GPU可能仍然是訓(xùn)練大型人工智能模型以及運(yùn)行推理應(yīng)用程序的主要選擇。雖然NVIDIA目前在GPU市場(chǎng)占據(jù)主導(dǎo)地位,但我們預(yù)計(jì),隨著客戶尋求更大的供應(yīng)商多樣性,AMD和英特爾等其他供應(yīng)商將隨著時(shí)間的推移獲得一些份額。供應(yīng)鏈中更多的選擇可以轉(zhuǎn)化為急需的供應(yīng)可用性和成本降低,從而實(shí)現(xiàn)加速計(jì)算的可持續(xù)增長(zhǎng)。
下一代服務(wù)器平臺(tái)的進(jìn)步
通用服務(wù)器的計(jì)算密度一直在增加,因?yàn)镃PU的發(fā)展使服務(wù)器的每個(gè)CPU具有更多的處理器核心、內(nèi)存和帶寬。AmpereComputingAltraMax、AMD的Bergamo每個(gè)處理器最多配備128個(gè)核心,而英特爾的GraniteRapids(今年晚些時(shí)候上市)每個(gè)處理器也將擁有相似數(shù)量的核心。不到七年前,英特爾的 Skylake CPU最多配備28個(gè)內(nèi)核。最新一代的CPU還包含針對(duì)AI推理工作負(fù)載進(jìn)行優(yōu)化的板載加速器。
服務(wù)器更換周期延長(zhǎng)
超大規(guī)模云SP延長(zhǎng)了通用服務(wù)器的更換周期。隨著時(shí)間的推移,這一措施會(huì)降低通用服務(wù)器的更換成本,從而將更多的資本支出分配給加速系統(tǒng)。
計(jì)算、內(nèi)存和存儲(chǔ)的分解
近年來(lái),計(jì)算和存儲(chǔ)已被分解,以提高服務(wù)器和存儲(chǔ)系統(tǒng)的利用率。我們相信,基于CXL的下一代機(jī)架規(guī)模架構(gòu)將實(shí)現(xiàn)更大程度的分解,有利于計(jì)算核心、內(nèi)存和存儲(chǔ)的利用。
原文轉(zhuǎn)自:Data Center Infrastructure—a Look into 2024, Baron Fung, DeLL'ORO GROUP