隨著華為海思芯片供貨的日益緊張,越來越多的開發者開始咨詢NVIDIA Jetson系列產品,尤其關心NVIDIA與華為產品的差異,本文將從產品定位、平臺生態、應用遷移幾個方面對華為海思、華為Atlas、NVIDIA Jetson三個平臺進行一個綜合的對比,希望能對有需要的朋友有所幫助。 產品性能對比 海思Hi3559A以及Atlas 200/500作為華為在邊緣計算方向的主流產品,一直有著不錯的表現。作為本次評估的對標產品,聯寶科技(聯想集團子公司)的EA-B200和EA-B310在AI算力,視頻編解碼性能上與華為產品綜合對比究竟誰更勝一籌?通過下圖可以有一個更加直觀的了解。 海思Hi3559A自發布以來,作為國產安防方案的代表不斷走強,與其突出的視頻處理能力不無關系。視頻編解碼支持8K高分辨率,內置ISP可以支持圖像全景拼接、數字防抖等功能,4TOPS的AI算力在該級別也算是佼佼者。 對標產品聯寶EA-B200采用了Jetson TX2 NX核心模組,作為TX2的cost down版本,其成本大幅下降性能卻基本持平。AI算力方面,雖然FP16浮點運算能力不能直接與INT8整形運算能力對比,但基于實際用戶體驗,TX2 NX的整體算力還是弱于Hi3559A。CPU性能方面得益于高性能的Denver2架構,比ARMv7和ARMv8更寬的指令解碼寬度,性能更為強勁。視覺編程方面與海思獨立ISP相比,TX2 NX使用了NVIDIA的VPI框架,在運動相機的場景中應用還不夠廣泛。不過在視頻編解碼并行能力上TX2 NX占據優勢,可以同時支持14路的1080p@30fps的編解碼,Hi3559A沒有明確的官方數據。 Atlas 200/500系列,以加速模塊和終端產品的形態存在,均采用了華為自研的達芬奇架構昇騰310 SOC。對于CPU及NPU細節,官方沒有公布,其AI算力,高達22TOPS。視頻編解碼能力也達到1路1080p@30fps和16路1080p@30fps,可以廣泛應用于智慧城市、零售、制造、機器人、無人機等領域。 對標產品聯寶EA-B310采用了Jetson Xavier NX核心模組,INT8算力以微弱劣勢稍遜于Atlas 200/500,不過在FP16的算力加持下,綜合算力強于Atlas。CPU性能方面采用了Denver2的改進版Carmel最新框架,其指令解碼達到了驚人的10寬度,性能極為強勁,Atlas的CPU由于未透露更多細節,對于其整體表現還不了解,期待后續的實際測試對比中來給出更多細節。在視頻解碼能力上也與Atlas持平,不過視頻編碼方面,并行能力大幅領先,在多路攝像頭錄像這樣需要用到編碼的場景下占據優勢。在應用領域方面,Xavier NX與Atlas基本重合。可以說,對標的兩個產品應用場景都基本一致,但綜合性能聯寶EA-B310更勝一籌。 框架/生態全面解析 在方案的硬件框架和基本性能之外,軟件框架和生態的完善程度影響著產品開發和維護的效率、成本和體驗,甚至決定著產品的成敗。 Hi3559A采用了海思的統一軟件框架,媒體軟件處理平臺(Media Process Platform,簡稱MPP),可支持應用軟件快速開發。該平臺對應用軟件屏蔽了芯片相關的復雜的底層處理,并對應用軟件直接提供 MPI(MPP Program Interface)接口完成相應功能。該平臺支持應用軟件快速開發以下功能:輸入視頻捕獲、H.265/H.264/JPEG 編碼、H.265/H.264/JPEG 解碼、視頻輸出顯示、視頻圖像前處理(包括去噪、增強、銳化)、圖像拼接、圖像幾何矯正、智能、音頻捕獲及輸出、音頻編解碼等功能。SVP(Smart Vision Platform)是海思媒體處理芯片智能視覺異構加速平臺。該平臺包含CPU、DSP、NNIE(Neural Network Inference Engine)等多個硬件處理單元和運行在這些硬件上的SDK開發環境,以及配套的工具鏈開發環境。 Atlas系列產品,采用了CANN(Compute Architecture for Neural Networks)異構計算架構,支持用戶快速構建基于昇騰平臺的AI應用和業務,主要包含AscendCL、DVPP、HCCL等組件:昇騰統一編程接口AscendCL實現軟硬件解耦;華為通信集合庫HCCL在分布式訓練中為不同昇騰AI處理器之間提供高效的數據傳輸能力;DVPP實現硬件加速,提升圖像預處理并行能力。AI框架兼容主流的TensorFlow、Caffe、Pytorch,同時支持華為的開源AI框架MindSpore,更好地匹配昇騰處理器的算力和全場景深度學習框架。 同時,昇騰還在以下幾個方面提升開發的效率和體驗:預訓練模型:提供大量預訓練模型和腳本工具,讓開發者能夠最高效完成AI模型開發; 算子調優:提高開發效率; 性能調優:發揮芯片極致性能; 行業應用開發套件:使能開發者以極少代碼快速開發行業AI應用; 昇騰社區:使開發者獲得更多更快的支持。 在生態建設方面,昇騰有以下幾個措施:硬件開放、軟件開源,使能合作伙伴, ISV合作伙伴發展計劃、初創伙伴加速計劃,高校教學合作、論文+模型開發激勵、開發人員成長計劃。 而NVIDIA作為早期入場AI并且其平臺和生態也日趨成熟的廠商,體系更顯完善。在軟件框架方面,CUDA作為最早推出的CPU+GPU并行運算平臺,性能強大系統成熟,并且支持跨平臺(X86、ARM),有著豐富的開發和系統資源。AI框架支持TensorFlow、PyTorch、Caffe2、Keras、MXNet等主流框架,并且可以通過TensorRT對模型優化,極致利用GPU性能。DeepStream框架將深度神經網絡和其它復雜任務引入到流處理管道,對視頻流和傳感器數據流進行實時分析。 NVIDIA Jetson還在以下幾個方面全面加速或簡化系統的開發和部署: TAO & FLEET工具集:基于Transfer Learning Toolkit,內置大量預訓練模型,對模型進行遷移學習,可視化微調,將一個通用模型以極低成本調整為適合當前業務的高準確度的定制模型,并且通過Fleet command快速部署。 Could Native:提供容器和多種鏡像,快速部署各種應用和服務; ISAAC:為機器人量身定制的數字孿生系統,讓訓練在虛擬世界中快速低成本地進行; VPI:NVIDIA視覺編程接口,統一NVIDIA所有的硬件平臺接口,忽略底層差異,內置多種算法,加速應用開發; Jetson官方及第三方社區:高活躍度,大量的業務和技術信息持續流通; 生態建設方面,NVIDIA開展了全球規模的GTC大會,各行業頂尖玩家的精彩案例和演講不斷分享。NVIDIA Partner Network核心伙伴案例交流,營銷和產品的定期培訓,持續進行能力提升。 總體來說,海思Hi3559A的AI框架支持較弱,僅支持Caffe框架,但提供整套的SDK包,內置較多的應用Demo,做少量修改即可完成一個產品原型。Atlas技術框架和生態建設均很完善,也提供了各種快速開發和部署的組件和工具,但兼容性和成熟度還沒有經過市場檢驗。Jetson依賴最成熟的CUDA平臺,程序可從X86平臺移植且無縫銜接,提供了快速開發和部署的工具集,并且建設了ISAAC數字孿生平臺為機器人開發加速,擁有最完善和成熟的生態。 應用遷移探討 那么從Hi3559A和Atlas將系統應用遷移到Jetson的可行性和難度如何呢?筆者也沒有過這樣的經驗,所以無法評估難度,只能從所需要關注的內容和可行性方面來探討。 模型遷移:需要將優化之前的原始模型,部署到Jetson,使用TLT工具來進行遷移和適配; 業務程序遷移:業務邏輯的代碼遷移和編譯,其中對外設的控制部分需要重新適配; 運維部署環境遷移:需要遷移到Jetson的Cloud Native。 總結 聯寶科技的EA-B200在性能上弱于Hi3559A,在運動相機的場景中應用較少。而聯寶EA-B310不管是在AI綜合算力,還是在視頻編碼性能上,都要強于Atlas 200/500。雖然Jetson的生態更為成熟,但Atlas與Jetson均有著完善的生態,能帶來良好的開發和維護體驗。 |