震驚！FPGA運算單元可支持高算力浮點

發布時間：2020-3-3 21:10 發布者：eechina

Achronix創新的機器學習處理器（MLP）突破傳統FPGA運算瓶頸

作者：楊宇，Achronix資深現場應用工程師

隨著機器學習（Machine Learning）領域越來越多地使用現場可編程門陣列（FPGA）來進行推理（inference）加速，而傳統FPGA只支持定點運算的瓶頸越發凸顯。 Achronix為了解決這一大困境，創新地設計了機器學習處理器（MLP）單元，不僅支持浮點的乘加運算，還可以支持對多種定浮點數格式進行拆分。

MLP全稱Machine Learning Processing單元，是由一組至多32個乘法器的陣列，以及一個加法樹、累加器、還有四舍五入rounding/飽和saturation/歸一化normalize功能塊。同時還包括2個緩存，分別是一個BRAM72k和LRAM2k，用于獨立或結合乘法器使用。MLP支持定點模式和浮點模式，對應下面圖1和圖2。

圖1 定點模式下的MLP框圖

圖2 浮點模式下的MLP框圖

考慮到運算能耗和準確度的折衷，目前機器學習引擎中最常使用的運算格式是FP16和INT8，而Tensor Flow支持的BF16則是通過降低精度，來獲得更大數值空間。下面的表1是MLP支持的最大位寬的浮點格式，表2說明了各自的取值范圍。

表1 MLP支持的最大位寬的浮點格式

表2 不同運算格式的取值范圍

而且這似乎也成為未來的一種趨勢。目前已經有不少研究表明，更小位寬的浮點或整型可以在保證正確率的同時，還可以減少大量的計算量。因此，為了順應這一潮流，MLP還支持將大位寬乘法單元拆分成多個小位寬乘法，包括整數和浮點數。詳見下表3。

值得注意的是，這里的bfloat16即Brain Float格式，而block float為塊浮點算法，即當應用Block Float16及更低位寬塊浮點格式時，指數位寬不變，小數位縮減到了16bit以內，因此浮點加法位寬變小，并且不需要使用浮點乘法單元，而是整數乘法和加法樹即可，MLP的架構可以使這些格式下的算力倍增。

表3是Speedster7t系列1500器件所支持的典型格式下的算力對比，可以看到，單片FPGA的浮點算力最高可達到123TOPS。

表3 Achronix的Speedster7t系列1500器件支持的典型格式的算力對比

下圖3是MLP中FP24/FP16乘加單元的簡化結構圖，即一個MLP支持FP24/FP16的A*B+C*D，或者A*B，C*D。

圖3 MLP中FP24/FP16乘加單元的簡化結構圖

而以下的圖4則是塊浮點乘加單元結構。

圖 4 塊浮點乘加單元結構

這里考慮浮點數序列塊

，浮點數序列塊

，各序列塊內均擁有相同的指數ea和eb。則

不難看出，乘法單元的個數取決于尾數（即整數）位寬。

表4 MLP中乘法單元的個數與整數位寬的關系

如需了解更多產品細節，請訪問Achronix網站以獲取產品資料，謝謝閱讀！Achronix官網：www.achronix.com。

本文地址：http://m.qingdxww.cn/thread-578373-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。