來源:AVNET 現場可編程門陣列 (FPGA) 為人工智能 (AI) 應用帶來了許多優勢。圖形處理單元 (GPU) 和傳統的中央處理單元 (CPU) 相比,孰優孰劣? 所謂人工智能 (AI),是指能夠以類似于人類的方式做出決策的非人類機器智能,涵蓋了判斷、思考、適應和意圖能力。 研究公司 Statista 預測,到 2025 年,人工智能的全球市場規模將達 1260 億美元。到 2030 年,人工智能在中國、北美和阿聯酋 GDP 中的占比將分別達到 26.1%、14.5% 和 13.6%。 人工智能市場涵蓋了各類應用,包括自然語言處理 (NLP)、機器人過程自動化、機器學習和機器視覺。在很多垂直行業,人工智能的采用率迅速提升,正在創造又一項偉大的技術變革,可以與個人電腦和智能手機的出現相提并論。 盡管人工智能主要依賴于模擬人類思維的編程算法,但硬件同樣發揮著重要作用。人工智能操作包括三大主要硬件解決方案:現場可編程門陣列 (FPGA)、圖形處理單元 (GPU) 和中央處理器 (CPU)。 人工智能 (AI) 及其術語最早來源于研究人員 Allen Newell、Cliff Shaw 和 Herbert Simon 在 1956 年創建的 Logic Theorist 程序。Logic Theorist 程序由蘭德 (RAND) 公司資助開發,旨在模擬人類解決問題的技能。Logic Theorist 被視為第一款人工智能程序,并于 1956 年在新罕布什爾州達特茅斯學院的達特茅斯人工智能夏季研究項目 (DSRPAI) 中進行了介紹。 每種方案都各有優缺點,接下來我們將進一步探討。 FPGA 現場可編程門陣列 (FPGA) 是具有可編程硬件結構的集成電路。其與圖形處理單元 (GPU) 和中央處理單元 (CPU) 的不同之。處在于,FPGA 處理器內部的功能電路未經過硬蝕刻。因此,FPGA 處理器可以根據需要進行編程和更新。此外,設計人員也能從頭開始構建神經網絡,或完全根據自身需求打造 FPGA。 FPGA 采用可重編程、可重配置的架構,在日新月異的人工智能領域優勢明顯,使設計人員可以快速測試新算法。由于無需開發和發布新硬件,因此在縮短產品上市時間和節省成本方面競爭優勢明顯。 FPGA 兼具速度、可編程性和靈活性,降低了專用集成電路 (ASIC) 開發所固有的成本和復雜性,使得效率大為提高。 FPGA 的主要優勢包括: • 延遲降低,性能卓越: FPGA 可以帶來低延時,同時也是可確定性的延時(Deterministic Latency)。DL 作為模型將從初始狀態或給定的起始條件連續產生相同的輸出。DL 提供已知的響應時間,對于很多具有嚴格硬時延要求的應用程序而言,這一點至關重要。由此,可以加快語音識別、視頻流和運動識別等實時應用程序的執行速度。 • 成本效益:制造完成后,FPGA 可以針對不同的數據類型和功能重新編程,避免因為應用改變而需要的硬件更新,從而體現出極高的價值。設計人員可以將其他功能(例如圖像處理流程)集成到同一芯片上,借助 FPGA 實現人工智能以外的功能,從而降低成本,節省電路板空間。FPGA 的產品生命周期較長,能顯著提升應用的實用性,延長的有效時間可達數年甚至數十年。由此,其成為了工業、航空航天、國防、醫療和運輸領域的理想之選。 • 能源效率: 借助 FPGA,設計人員能夠對硬件進行微調,以匹配應用需求。利用 INT8 量化等開發工具是優化機器學習框架(如 TensorFlow 和 PyTorch)的有效方法。同時,INT8 量化也為 NVIDIA® TensorRT 和 Xilinx® DNNDK 等硬件工具鏈提供了令人滿意的結果,因為 INT8 使用 8 位整數而不是浮點數,同時使用整數運算而不是浮點運算。適當使用 INT8 可以減少內存和計算需求,最多能使內存和帶寬使用量減少 75%。在要求苛刻的應用中,這一點對于滿足功耗要求而言至關重要。 FPGA 可以并行處理多種功能,甚至能為特定功能分配器件中特定資源,大大提高了操作和能源效率。FPGA 架構獨特,將少量分布式內存放入結構中,使得它們更靠近處理單元。與 GPU 設計相比,這種設計降低了延遲,更重要的是減少了功耗。 GPU 圖形處理單元 (GPU) 最初開發用于生成計算機圖形、虛擬現實訓練環境和視頻,其借助高級計算和浮點功能繪制幾何對象、照明和色深。人工智能若要獲得成功,就需要大量用于分析和學習的數據。這就需要強大的計算能力來執行人工智能算法并轉移大量數據。GPU 之所以能夠執行此類操作,是因為其專門設計用于快速處理渲染視頻和圖形時使用的大量數據。由于計算能力出眾,GPU 在機器學習和人工智能應用領域頗受歡迎。 GPU 非常適合并行處理,即并行計算大量算術運算。由此,在具有重復工作負載且快速連續地重復執行的應用程序中,可以顯著提高處理速度。GPU 的定價可以采用競爭性解決方案,普通顯卡的生命周期為五年。 另一方面,在 GPU 上實施人工智能的局限性也確實存在。GPU 提供的性能通常不及 ASIC 設計,后者具有專門設計用于人工智能應用的微芯片。GPU 具備強大的計算能力,但卻犧牲了能效,產生的熱量也較高。熱量會影響應用的耐用性,損害性能并限制操作環境的類型。在更新人工智能算法和添加新功能方面,其能力也無法與 FPGA 處理器相提并論。 CPU 中央處理器 (CPU) 是許多設備中使用的標準處理器。與 FPGA 和 GPU 相比,CPU 架構的內核數量有限,針對順序串行處理進行了優化。Arm® 處理器可能是個例外,因其穩健地實施了單指令多數據 (SIMD) 架構,可以同時操作多個數據。盡管如此,但其性能仍無法與 GPU 或 FPGA 媲美。 由于內核數量有限,CPU 處理器無法高效地并行處理正確運行人工智能算法所需的大量數據。FPGA 和 GPU 的架構設計具有密集并行處理功能,可以快速并行處理多個任務。FPGA 和 GPU 處理器執行人工智能算法的速度比 CPU 更快。這意味著與 CPU 相比,人工智能應用程序或神經網絡在 FPGA 或 GPU 上的學習和反應速度要快好幾倍。 CPU 確實存在一些初始價格優勢。使用有限的數據集訓練小型神經網絡時,可以使用 CPU,但需要以較長時間的代價。與基于 FPGA 或 GPU 的系統相比,基于 CPU 的系統運行速度要慢得多。基于 CPU 的應用程序還存在另一個優勢,那就是功耗。與 GPU 配置相比,CPU 能效更高。 微型機器學習 (TinyML) TinyML 被視為人工智能發展的下一個發展階段,增長勢頭強勁。盡管 FPGA、GPU 和 CPU 處理器上運行的人工智能應用程序功能極其強大,但無法在手機、無人機和可穿戴應用程序等情境中使用。 連接設備日趨普及,需要進行本地數據分析,降低對云的依賴,實現完整功能。TinyML 可以在微控制器上運行的邊緣設備內實現低延遲、低功耗和低帶寬的推理模型。 普通消費者 CPU 的功耗在 65 到 85 瓦之間,而 GPU 的平均功耗在 200 到 500 瓦之間。相比之下,典型的微控制器消耗的功率為毫瓦或微瓦數量級,功耗僅為千分之一。因此,TinyML 設備能夠依靠電池供電運行數周、數月甚至數年,同時在邊緣運行機器學習應用程序。 TinyML 支持 TensorFlow Lite、uTensor 和 Arm 的 CMSIS-NN 等框架,將人工智能與小型互聯設備相結合。 TinyML 的優勢包括: · 能源效率: 微控制器功耗極低,是遠程安裝和移動設備的理想選擇 · 低延遲: 可以在邊緣本地處理數據,無需將數據傳輸到云端進行推理,由此大大降低了設備延遲。 · 隱私: 數據可以存儲在本地,無需存儲在云服務器上。 · 帶寬減少: 降低了對云端推理的依賴性,最大限度地減少了帶寬問題。 對于不適合使用 FPGA、GPU 或 CPU 的小型邊緣設備和規模有限的應用,使用 MCU 的 TinyML 未來使用前景廣闊。 要點 人工智能主要包括三大硬件解決方案:FPGA、GPU 和 CPU。對于速度和反應時間至關重要的人工智能應用而言,FPGA 和 GPU 在學習和反應時間方面存在優勢。盡管 GPU 能夠處理人工智能和神經網絡所需的大量數據,但缺點也比較明顯,包括能效、散熱(熱量)、耐用性以及應用程序新功能和人工智能算法更新的能力。FPGA 在人工智能應用和神經網絡中擁有關鍵優勢,包括能源效率、實用性、耐用性以及更新人工智能算法的簡便性。 此外,FPGA 開發軟件也取得了重大進展,顯著降低了編程和編譯難度。硬件選擇是人工智能應用程序的成敗關鍵所在。最終決定之前,請仔細研究,謹慎抉擇。 您需要為下一次創新選擇合適的技術合作伙伴,以便提高效率,降低潛在風險并最大程度地提高盈利潛力。為了幫您實現目標,安富利可以為您牽線搭橋,與人工智能領域值得信賴的全球技術合作伙伴建立連接。由此,您可以將寶貴的資源集中在知識產權創新及其他競爭優勢明顯的領域。我們將與您緊密合作,全力提供所需支持,幫助您的產品在市場中脫穎而出,縮短產品上市時間,贏取更多生意。 |