來源:Digi-Key 作者:Jacob Beningo 邊緣視覺識別正成為許多產品的一個越來越關鍵的特性,機器學習 (ML) 和人工智能 (AI) 的應用范圍不斷擴大。開發人員面臨的問題在于,ML/AI 賦能的視覺運行識別算法所需要的計算能力可能超出了功耗受限應用所能提供的能力。如果需要昂貴的熱管理解決方案,則成本還會增加。 邊緣 ML/AI 的目標是找到最優架構方法以平衡性能與功耗,同時提供一個強大的軟件生態系統來開發應用程序。 基于這些考慮,本文介紹了 Renesas Electronics RZ/V2 系列微處理器單元 (MPU) 解決方案,該方案內置 AI 硬件加速器。本文探討了 MPU——而非微控制器 (MCU) 或高端圖形處理單元 (GPU)——如何解決設計人員面臨的幾個問題,本文還說明了如何利用 RZ/V2 系列設計視覺識別系統,并提供了一些有助于順利完成該過程的“技巧與訣竅”。 RZ/V2 系列 MPU 介紹 RZ/V2 系列 MPU 解決方案為使用三核微處理器的開發人員解鎖了許多能力。RZ/V2L 系列微處理器包含兩個運行在 1.2 GHz 的 Arm Cortex-A55 處理器和一個運行在 200 MHz 的實時微控制器內核 (Arm® Cortex®-M33)。此外,該系列器件包含一個基于 Arm Mali-G31 多媒體處理器的 GPU,具有 NEON 單指令/多數據 (SIMD) 指令。這三個處理核心和多媒體處理器相結合,為從事視覺識別系統的開發人員提供了功能全面的解決方案。 RZ/V2 系列目前有兩類 MPU,即 RZ/V2L 和 RZ/V2M 系列。RZ/V2L 有一個簡單的圖像信號處理器 (ISP)、3D 圖形引擎和一個高度通用的外設集。RZ/V2M 則增加了一個高性能 ISP,支持每秒 30 幀 (fps) 的 4K 分辨率。本文重點介紹 RZ/V2L 系列,包括 R9A07G054L23GBG 和 R9A07G054L24GBG。這兩款器件的主要區別在于:R9A07G054L23GBG 采用 15 mm2 456-LFBGA 封裝,而 R9A07G054L24GBG 采用 21 mm2 551-LFBGA 封裝。 RZ/V2L 系列的方框圖如圖 1 所示。除了三個處理核心外,這些 MPU 還包括 DDR3/DDR4 內存、SPI、USB、以太網、I2C、CAN、SCI、GPIO、模數轉換器 (ADC) 等標準外設的接口。此外,這些器件包含安全功能,如安全啟動、加密引擎和真隨機數發生器 (TRNG)。不過,該 MPU 系列的出眾之處在于其動態可配置處理器 (DRP) AI 加速器。 圖 1:RZ/V2L MPU 系列支持各種外設接口、安全和視頻處理選項。視覺識別應用的關鍵特性在于 DRP-AI 加速器。(圖片來源:Renesas Electronics Corporation) 秘密武器——DRP-AI 加速器 DRP-AI 加速器是讓 RZ/V2L 系列 MPU 以較少的能耗和較低的溫度快速執行視覺識別應用的秘密武器。DRP-AI 包括兩個元件:DRP 和 AI 乘法累加 (MAC),二者能通過內部開關優化數據流來高效處理卷積網絡和全組合層的操作(圖 2)。 DRP-AI 硬件專門用于執行 AI 推理。DRP-AI 采用 Renesas 開發的獨特動態可配置技術,可提供靈活性、高速處理和高能效。此外,免費軟件工具 DRP-AI 翻譯器可以讓用戶實施優化的 AI 模型,迅速實現性能最大化。由 DRP-AI 翻譯器輸出的多個可執行文件可以放在外部存儲器中。然后,應用程序可以在運行時在多個 AI 模型之間動態切換。 DRP 可以通過動態改變硬件配置來快速處理復雜的活動,如圖像預處理和 AI 模型池化層。 圖 2:DRP-AI 包括 DRP 和 AI-MAC,二者通過內部開關優化數據流來共同高效處理卷積網絡和全組合層的操作。(圖片來源:Renesas Electronics Corporation) DRP-AI 翻譯器 DRP-AI 翻譯器工具從訓練好的 ONNX 模型生成 DRP-AI 優化的可執行文件,與具體 AI 框架無關。例如,開發人員可以使用 PyTorch、TensorFlow 或任何其他 AI 建模框架,只要能輸出 ONNX 模型即可。模型一旦訓練完畢,就被送入 DRP-AI 翻譯器,由其生成 DRP 和 AI-MAC 可執行文件(圖 3)。 圖 3:使用任何 ONNX 兼容框架訓練 AI 模型。ONNX 模型隨后被送入 DRP-AI 翻譯器,由其生成 DRP 和 AI-MAC 可執行文件。(圖片來源:Renesas Electronics Corporation) DRP-AI 翻譯器有三個主要用途: 1、調度 AI 模型處理的每個操作。 2、隱藏開銷,如計劃表中每個操作的轉換期間發生的內存訪問時間。 3、優化網絡圖結構。 翻譯器自動將 AI 模型的每個進程分配給 AI-MAC 和 DRP,用戶無需成為硬件專家就能輕松使用 DRP-AI。開發人員可通過所提供的驅動程序進行調用,以運行高性能 AI 模型。此外,DRP-AI 翻譯器可持續更新以支持新開發的 AI 模型,而無需改變硬件。 系統用例和流程 使用 RZ/V2L MPU 訓練和部署視覺識別應用的一般流程如圖 4 所示。像平常一樣,工程師可以獲取數據集,并使用它來訓練自己的視覺識別模型。無論嘗試識別的是貓咪、購物車中的產品,還是裝配線上的故障零件,他們都可以使用熟悉的 AI 框架開展訓練流程。模型訓練完成后,就會被轉換成 ONNX 格式,并被送入 DRP-AI 翻譯器,翻譯器進而輸出可以在 DRP-AI 硬件上執行的目標代碼。隨后,來自攝像頭、加速計或其他傳感器的數據經采樣后饋入可執行文件,提供運行推理的結果。 圖 4:在 RZ/V2L MPU 上訓練和運行視覺識別算法的流程。(圖片來源:Renesas Electronics Corporation) 工程師在其設計中可以通過多種方式利用 RZ/V2L MPU(圖 5)。首先,RZ/V2L MPU 可用于獨立的設計中,RZ/V2L 用作系統中唯一的處理器。它有三個核心和 AI 加速硬件,系統可以不需要額外的計算能力。 第二個用例是 RZ/V2L 用作更大系統中的 AI 處理器。在此用例中,RZ/V2L 運行 AI 推理,并將結果返回給另一個處理器或系統,后者針對該結果進行操作。所選用例取決于多個因素,如成本、整體系統架構、性能和實時響應要求。 圖 5:RZ/V2L MPU 的兩個用例:一個是獨立用于應用中,另一個是用作更大系統中的 AI 處理器。(圖片來源:Renesas Electronics Corporation) 現實生活應用示例 有許多可以部署視覺識別技術的用例。一個有趣的例子是在超市。如今,在雜貨店結賬時,員工或購物者通常會掃描購物車中的每件物品。一個有趣的用例是利用視覺識別檢測穿過傳送帶的物品,并自動計費。 可以使用簡單的 CMOS 攝像頭和 Renesas 的 RTK9754L23S01000BE 評估板來構建原型(圖 6)。RZ/V2L 嵌入式開發板帶有系統級模塊 (SOM) 和載板,便于開發人員快速啟動和運行。此外,開發板支持 Linux 和 DRP-AI 翻譯器等各種工具。 圖 6:RZ/V2L 嵌入式開發板帶有 SOM 和載板,便于開發人員快速啟動和運行。(圖片來源:Renesas Electronics Corporation) 圖 7 中可以看到獲取圖像數據和產生 AI 結果所需的操作概述。在此應用示例中,使用 CMOS 傳感器通過板載 ISP 拍攝傳送帶的圖像。然后,圖像被保存到存儲器中并被送入 DRP-AI 引擎。最后,DRP-AI 引擎運行推理并提供 AI 結果。例如,結果可能是發現了香蕉或蘋果,或其他某種水果。 該結果通常伴隨一個 0 到 1 的置信度。例如,置信度 0.90 意味著 AI 確信檢測到蘋果,而置信度 0.52 可能表示 AI 認為是蘋果但不確定。將多個樣本的 AI 結果進行平均以提高正確結果的概率,這種做法并不罕見。 圖 7:RZ/V2L 嵌入式開發板用于運行 AI 推理,以識別傳送帶上的各種水果。圖中展示了獲取圖像和產生 AI 結果的必要步驟。(圖片來源:Renesas Electronics Corporation) 最后,在此例中,檢測到的物體周圍會繪制一個方框,識別到的物體的名稱與置信度一起顯示在方框中(圖 8)。 圖 8:RZ/V2L 在傳送帶水果和蔬菜檢測應用中的輸出示例。(圖片來源:Renesas Electronics Corporation) RZ/V2L 入門技巧與訣竅 希望在 Renesas 的 RZ/V2L MPU 上開始機器學習的開發人員會發現,他們有很多資源可資利用。為了簡化和加快開發,開發人員應牢記以下幾個“技巧和竅門”: · 從開發板和現有示例開始,體驗應用的部署和運行。 · 如果有必要執行多個推理,則將可執行模型保存到外部存儲器中,并使用 DRP-AI 功能在模型間快速切換。 · 查看 Renesas 的 RZ/V 嵌入式 AI MPU 網站上的文檔和視頻。 · 下載 DRP-AI 翻譯器。 · 下載 RZ/V2L DRP-AI 支持包。 開發人員遵循這些“技巧和竅門”,可以在開始使用時節省更多的時間并省去更多的麻煩。 結語 ML 和 AI 正在進入許多邊緣應用,實時識別物品的能力變得越來越重要。設計人員的困難在于找到合適的架構,以便在邊緣執行 AI/ML。GPU 通常非常耗電,而 MCU 可能沒有足夠的計算能力。 如本文所述,配備 DRP-AI 的 Renesas RZ/V MPU 系列具備多個優點,如硬件加速 AI,同時還有大量的工具鏈和原型開發支持。 |