在機器學習推理場景中,除了GPU外,還有一大通用AI硬件適合這一負載,那就是FPGA。與GPU一樣,在技術和算法還未成熟且仍在打磨階段時,可以隨時重新編程改變芯片功能的FPGA架構前期硬件成本顯著低于GPU。在推理性能上,現如今的FPGA加速卡算力遠超CPU,甚至高過不少GPU產品。 但隨著算法和模型逐漸成熟,FPGA在成本上的優勢就慢慢不存在了,在大語言模型上需要用到更多的硬件,而FPGA量產規模的單價成本還是太高了,一旦擴充至成千上萬張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據傳單卡價格就在2000美元左右。如果我們以INT8精度來衡量算力的話,假設ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。 所以還是有不少人將目光投向了量產規模成本更低的ASIC,比如谷歌就選擇用自研的TPU來部署其聊天機器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計算效率卻是最高的,而且隨著量產化單片成本會逐漸降低。比如谷歌的單個TPU v4 Pod就集成了4096個TPU v4芯片,單芯片的BF16算力達到275TFLOPS,已經相當接近A100單卡峰值算力了。如果只是這樣簡單換算的話,只需幾個TPU v4 Pod,就能滿足與ChatGPT同量級的應用了。 不過ASIC方案并沒有我們想象得那么美好,首先這類硬件的前期設計成本較大,要想投入數據中心商用,必須組建強大的硬件設計和軟件開發團隊,這樣才能有與GPU相抗衡的性能。其次,因為本身專用硬件的特性,專用于機器學習推理的ASIC方案很難最大化數據中心的硬件利用率,不像GPU還可以同時用于訓練、視頻編解碼等等。 |