|
基于3U VPX的圖像數據AI計算平臺
一、產品概述
設備基于3U VPX的導冷結構,集成FPGA接口預處理卡,GPU板卡、飛騰ARM處理卡,實現光纖、差分電口或者Camera link的圖像接入,FPGA信號預處理,GPU AI計算,飛騰ARM的采集管理存儲。
二、系統組成
系統組成包括:3U VPX機箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計算主板、1塊3U VPX飛騰處理器計算板。
2.1基于XC7V690T的3U VPX信號處理板(274)
本板卡系我司自主研發的基于3U VPX導冷架構的信號處理板,適用于高速圖像處理等。芯片采用工業級設計。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機械設計依據VPX標準(VITA 46.0),支持導冷,能夠滿足用戶在特殊環境下的使用需求。
板卡功能
參數內容
主處理器
Xilinx XC7V690T-2FFG1761I
板卡標準
VPX VITA 46.0
電氣規范
PCIe 2.0,3.0 X4
FMC接口
FMC ANSI/VITA 57.1 – 2008 ,ASP-134486-01
HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口
板載緩存
兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT
加載Flash
BPI加載模式,BPI Flash 2Gb
VPX接口
P1: GTX x16, 支持PCIe、SRIO協議
P2: LVDS x24,一路RS422,一路1000Base-T
仿真器接口
1x 6Pin JTAG接口,間距2.54mm
LED
兩個,電源狀態指示燈,FPGA狀態指示燈(可編程)
復位方式
外復位
板卡尺寸
100mm x 160mm x20mm
板卡重量
(含散熱片)
板卡供電
+12V@4A
板卡功耗
48W
工作溫度
Industrial -20℃到+70℃
光纖收發子卡、2711子卡、Cameralink子卡
2.2 基于3U VPX的AGX Orin GPU計算主板(735)
Jetson AGX Orin 采用 NVIDIA Ampere 架構 GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學習和視覺加速器。高速 IO、204GB/s 的內存帶寬以及 32GB 的 DRAM 能夠饋送多個并發 AI 應用程序管道。采用 Jetson AGX Orin,您現在可以部署更大型、更復雜的模型,解決自然語言理解、3D 感知和多傳感器融合等問題。Jetson Orin算力高達275 TOPS,是上一代多個并發 AI推理管道性能的8倍,加上支持多個傳感器高速接口,可為新時代機器人提供理想的解決方案.
GPU
2048-core NVIDIA Ampere architecture GPU with
64 Tensor Cores
CPU
12-core Arm Cortex-A78AE v8.2 64-bit CPU
3MB L2 + 6MB L3
顯存
64GB 256-bit LPDDR5 204.8GB/s
存儲
64GB eMMC 5.1
DLA最大頻率
1.6 GHz
AI性能
275 TOPS
DL加速器
2x NVDLA v2
視頻加速器
1x PVA v2
視頻編碼
2x 4K60 (H.265), 4x 4K30 (H.265)
8x 1080p60 (H.265), 16x 1080p30 (H.265)
視頻解碼
1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265)
11x 1080p60 (H.265),22x 1080p30 (H.265)
PCle
x8 PCle Gen4
顯示接口
HDMI
網絡
RJ45 接口 (高達1 GbE)
2.3 3U VPX飛騰處理器刀片計算機
2.3.1 產品概述
該產品是一款基于國產飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計算機。產品提供了4個x4 PCIe 3.0總線接口,同時可配置為1個x16或2個x8 PCIe3.0接口,因此具有很強的擴展性,極大地滿足多負載多節點的應用需求。產品結構完全符合VITA 46.0規范,有很強的可靠性、可維護性、可管理性,并與軍用計算機的抗振動、抗沖擊、抗寬溫環境急劇變化等惡劣環境特性進行完美融合。
2.3.2 功能指標
● 3U 5HP VPX規格。
● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器
FT-2000/4標準版,2.6GHz,16W
騰銳D2000/8標準版,2.3GHz,25W
● 板載16GB雙通道DDR4內存,頻率2400MHz。
● 支持2個VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。
● 支持4個x4 PCIe3.0接口,可配置成1個x16 PCIe 3.0或2個x8 PCIe 3.0。
● 前面板支持1路10/100/1000Mbps網絡接口,后出2路10/100/1000Mbps網絡信號,其中1路后出網口與前面板網口二選一切換。
● 板載1個mSATA接口,支持SATA3.0;后出2路SATA3.0信號,用于擴展存儲。
● 前面板支持2個USB3.0接口;后出2路USB3.0接口信號。
● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。
● 提供1路RS232后出CPU管理串口。
● 前面板帶復位按鍵和LED指示燈。
● 單板管理功能(可選功能)。
● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統。
(本項目使用ubuntu操作系統)
三、軟件開發內容
3.1光纖收發整體流程設計
2路QSFP+光纖接口,一路作為發送端口,一路作為接收端口,每路接口作為4個X1通道互不影響。
接收端:數據流從光纖接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。
發送端:數據存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,FPGA取走數據,通過光纖發送端口發送出去。
GPU接收的數據通過千兆網發送到飛騰主板中。
3.2 TLK2711收發整體流程設計
4路TLK2711接口,2路作為發送端口,2路作為接收端口,每路接口互不影響。
接收端:數據流從TLK2711接收端進來,存到FPGA的DDR中,然后通過PCIE導入到GPU中。
發送端:數據存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,FPGA取走數據,通過TLK2711發送端口發送出去。
GPU接收的數據通過千兆網發送到飛騰主板中。
3.3 FPGA流程框架
如圖所示,FPGA程序可以大體劃分為PCIe端點控制器XDMA、DDR3讀寫控制以及TLK2711收發控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯方式。XDMA0數據鏈路為飛騰主板主控數據鏈路,XDMA1數據鏈路為Orin_GPU卡主控數據鏈路。
Orin_GPU卡主控數據鏈路:tlk2711子卡的接收端口接收到圖像數據緩存到第一組ddr3中,大小為4GB,對0-4GB的ddr3空間讀寫,gpu把圖像數據讀出并作處理。鏈路數據流向分為數據發送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱為PC):
數據接收過程描述(FPGA-PC):圖像數據以1.6Gbps線速率通過rxp接口,wr_fifo把16bit數據位寬轉化為128bit數據位寬,fdma_ctrl的寫ddr3模塊把數據寫入到0-4GB的地址空間,通過定義的寄存器信號告訴主機軟件取出對應地址空間的數據,通過dma的C2H通道直接寫入主機內存。
飛騰主板主控數據鏈路:飛騰主板把圖像處理結果寫入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數據通過tlk2711子卡的發送端口發送出去。(這里飛騰主板和Orin_GPU卡都稱為PC)。
數據發送過程描述(PC-FPGA):為了實現數據發送,主機軟件從主機內存固定位置讀出圖像處理數據發送到DMA的H2C通道,寫入到板載第二組DDR3的0-4GB的空間,主機軟件通過寄存器通知fdma_ctrl的讀ddr3模塊取出對應地址ddr3的數據,通過rd_fifo把數據128bit位寬變化到16bit后,給到tlk2711子卡的發送模塊,最后數據以1.6Gbps的線速率通過txp口發送出去。
3.4 軟件PCIE讀流程
軟件啟動開始接收,軟件通過寄存器使能FPGA開始接收數據(光纖或者TLK2711數據),軟件開始輪詢FPGA寫入完成寄存器,當讀到FPGA完成標志,說明FPGA已經寫入數據,軟件讀取DDR中數據,完成一次讀取數據交互流程。
之后重復單次流程,直到數據接收完整。
3.5 軟件PCIE寫流程
軟件啟動開始發送數據(光纖或者TLK2711數據),軟件把數據寫入DDR中, 通過寄存器使能FPGA開始發送,軟件開始輪詢FPGA讀取完成寄存器,當讀到FPGA完成標志,說明FPGA已經把DDR的數據取走,這樣就完成一次寫入數據交互流程。之后重復單次流程,直到數據發送完整。
3.6飛騰GPU數據交互
在背板設計中,飛騰主板和GPU千兆網互聯和RS232互聯。考慮傳輸速度,使用千兆網進行傳輸。使用TCP/IP協議,飛騰處理器為TCP服務端,GPU為TCP客戶端主動進行鏈接請求。
3.7 客戶端界面
客戶端具有狀態信息顯示,控制四通道光纖數據發送或者雙通道TLK2711接口數據發生功能。上位機自動識別FPGA子卡類型,切換操作界面。
四通道光纖子卡界面
雙通道TLK2711子卡界面
http://www.orihard.com/product/901.htm
|
|