在機(jī)器學(xué)習(xí)推理場(chǎng)景中,除了GPU外,還有一大通用AI硬件適合這一負(fù)載,那就是FPGA。與GPU一樣,在技術(shù)和算法還未成熟且仍在打磨階段時(shí),可以隨時(shí)重新編程改變芯片功能的FPGA架構(gòu)前期硬件成本顯著低于GPU。在推理性能上,現(xiàn)如今的FPGA加速卡算力遠(yuǎn)超CPU,甚至高過(guò)不少GPU產(chǎn)品。 但隨著算法和模型逐漸成熟,F(xiàn)PGA在成本上的優(yōu)勢(shì)就慢慢不存在了,在大語(yǔ)言模型上需要用到更多的硬件,而FPGA量產(chǎn)規(guī)模的單價(jià)成本還是太高了,一旦擴(kuò)充至成千上萬(wàn)張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據(jù)傳單卡價(jià)格就在2000美元左右。如果我們以INT8精度來(lái)衡量算力的話,假設(shè)ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。 所以還是有不少人將目光投向了量產(chǎn)規(guī)模成本更低的ASIC,比如谷歌就選擇用自研的TPU來(lái)部署其聊天機(jī)器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計(jì)算效率卻是最高的,而且隨著量產(chǎn)化單片成本會(huì)逐漸降低。比如谷歌的單個(gè)TPU v4 Pod就集成了4096個(gè)TPU v4芯片,單芯片的BF16算力達(dá)到275TFLOPS,已經(jīng)相當(dāng)接近A100單卡峰值算力了。如果只是這樣簡(jiǎn)單換算的話,只需幾個(gè)TPU v4 Pod,就能滿足與ChatGPT同量級(jí)的應(yīng)用了。 不過(guò)ASIC方案并沒(méi)有我們想象得那么美好,首先這類硬件的前期設(shè)計(jì)成本較大,要想投入數(shù)據(jù)中心商用,必須組建強(qiáng)大的硬件設(shè)計(jì)和軟件開(kāi)發(fā)團(tuán)隊(duì),這樣才能有與GPU相抗衡的性能。其次,因?yàn)楸旧韺S糜布奶匦裕瑢S糜跈C(jī)器學(xué)習(xí)推理的ASIC方案很難最大化數(shù)據(jù)中心的硬件利用率,不像GPU還可以同時(shí)用于訓(xùn)練、視頻編解碼等等。 |