    一、產(chǎn)品概述 設(shè)備基于3U VPX的導(dǎo)冷結(jié)構(gòu),集成FPGA接口預(yù)處理卡,GPU板卡、飛騰ARM處理卡,實現(xiàn)光纖、差分電口或者Camera link的圖像接入,F(xiàn)PGA信號預(yù)處理,GPU AI計算,飛騰ARM的采集管理存儲。 二、系統(tǒng)組成 系統(tǒng)組成包括:3U VPX機(jī)箱電源、3U VPX背板、 1塊3U VPX V7采集處理板、1塊3U VPX AGX orin GPU計算主板、1塊3U VPX飛騰處理器計算板。    2.1基于XC7V690T的3U VPX信號處理板(274)  本板卡系我司自主研發(fā)的基于3U VPX導(dǎo)冷架構(gòu)的信號處理板,適用于高速圖像處理等。芯片采用工業(yè)級設(shè)計。該處理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板載兩組64位寬DDR3,每組容量4GB,一個HPC FMC接口。VPX接口連接4組x4 GTH,24組LVDS,一路RS422,一路1000Base-T。板卡的電氣與機(jī)械設(shè)計依據(jù)VPX標(biāo)準(zhǔn)(VITA 46.0),支持導(dǎo)冷,能夠滿足用戶在特殊環(huán)境下的使用需求。
  板卡功能 | 參數(shù)內(nèi)容 | 主處理器 | Xilinx XC7V690T-2FFG1761I | 板卡標(biāo)準(zhǔn) | VPX VITA 46.0 | 電氣規(guī)范 | PCIe 2.0,3.0 X4 | FMC接口 | FMC ANSI/VITA 57.1 – 2008 ,ASP-134486-01 HPC中LA,HA,HB全部接口和DP0~DP7 8路高速接口 | 板載緩存 | 兩組DDR3,每組512Mx64bit(4GB), MT41K512M8RH-125-IT | 加載Flash | BPI加載模式,BPI Flash 2Gb | VPX接口 | P1: GTX x16, 支持PCIe、SRIO協(xié)議 P2: LVDS x24,一路RS422,一路1000Base-T | 仿真器接口 | 1x 6Pin JTAG接口,間距2.54mm | LED | 兩個,電源狀態(tài)指示燈,F(xiàn)PGA狀態(tài)指示燈(可編程) | 復(fù)位方式 | 外復(fù)位 | 板卡尺寸 | 100mm x 160mm x20mm | 板卡重量 | (含散熱片) | 板卡供電 | +12V@4A | 板卡功耗 | 48W | 工作溫度 | Industrial -20℃到+70℃ |
光纖收發(fā)子卡、2711子卡、Cameralink子卡   2.2 基于3U VPX的AGX Orin GPU計算主板(735)  Jetson AGX Orin 采用 NVIDIA Ampere 架構(gòu) GPU 和 Arm Cortex-A78AE CPU,以及新一代深度學(xué)習(xí)和視覺加速器。高速 IO、204GB/s 的內(nèi)存帶寬以及 32GB 的 DRAM 能夠饋送多個并發(fā) AI 應(yīng)用程序管道。采用 Jetson AGX Orin,您現(xiàn)在可以部署更大型、更復(fù)雜的模型,解決自然語言理解、3D 感知和多傳感器融合等問題。Jetson Orin算力高達(dá)275 TOPS,是上一代多個并發(fā) AI推理管道性能的8倍,加上支持多個傳感器高速接口,可為新時代機(jī)器人提供理想的解決方案. GPU | 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores | CPU | 12-core Arm Cortex-A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3 | 顯存 | 64GB 256-bit LPDDR5 204.8GB/s | 存儲 | 64GB eMMC 5.1 | DLA最大頻率 | 1.6 GHz | AI性能 | 275 TOPS | DL加速器 | 2x NVDLA v2 | 視頻加速器 | 1x PVA v2 | 視頻編碼 | 2x 4K60 (H.265), 4x 4K30 (H.265) 8x 1080p60 (H.265), 16x 1080p30 (H.265) | 視頻解碼 | 1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265) 11x 1080p60 (H.265),22x 1080p30 (H.265) | PCle | x8 PCle Gen4 | 顯示接口 | HDMI | 網(wǎng)絡(luò) | RJ45 接口 (高達(dá)1 GbE) |
2.3 3U VPX飛騰處理器刀片計算機(jī) 
2.3.1 產(chǎn)品概述 該產(chǎn)品是一款基于國產(chǎn)飛騰FT2000 4核或騰銳D2000 8核的高性能3U VPX刀片式計算機(jī)。產(chǎn)品提供了4個x4 PCIe 3.0總線接口,同時可配置為1個x16或2個x8 PCIe3.0接口,因此具有很強(qiáng)的擴(kuò)展性,極大地滿足多負(fù)載多節(jié)點的應(yīng)用需求。產(chǎn)品結(jié)構(gòu)完全符合VITA 46.0規(guī)范,有很強(qiáng)的可靠性、可維護(hù)性、可管理性,并與軍用計算機(jī)的抗振動、抗沖擊、抗寬溫環(huán)境急劇變化等惡劣環(huán)境特性進(jìn)行完美融合。 2.3.2 功能指標(biāo) ● 3U 5HP VPX規(guī)格。 ● 支持FT-2000/4 四核處理器和騰銳D2000 八核處理器 FT-2000/4標(biāo)準(zhǔn)版,2.6GHz,16W 騰銳D2000/8標(biāo)準(zhǔn)版,2.3GHz,25W ● 板載16GB雙通道DDR4內(nèi)存,頻率2400MHz。 ● 支持2個VGA接口,最大分辨率1920x1080@60Hz;其中1路VGA為后出接口。 ● 支持4個x4 PCIe3.0接口,可配置成1個x16 PCIe 3.0或2個x8 PCIe 3.0。 ● 前面板支持1路10/100/1000Mbps網(wǎng)絡(luò)接口,后出2路10/100/1000Mbps網(wǎng)絡(luò)信號,其中1路后出網(wǎng)口與前面板網(wǎng)口二選一切換。 ● 板載1個mSATA接口,支持SATA3.0;后出2路SATA3.0信號,用于擴(kuò)展存儲。 ● 前面板支持2個USB3.0接口;后出2路USB3.0接口信號。 ● 提供2路RS232后出串口,其中1路可選RS422/RS485模式。 ● 提供1路RS232后出CPU管理串口。 ● 前面板帶復(fù)位按鍵和LED指示燈。 ● 單板管理功能(可選功能)。 ● 支持銀河麒麟、UOS、Centos、ubuntu、VxWorks系統(tǒng)。 (本項目使用ubuntu操作系統(tǒng)) 三、軟件開發(fā)內(nèi)容
3.1光纖收發(fā)整體流程設(shè)計 2路QSFP+光纖接口,一路作為發(fā)送端口,一路作為接收端口,每路接口作為4個X1通道互不影響。 接收端:數(shù)據(jù)流從光纖接收端進(jìn)來,存到FPGA的DDR中,然后通過PCIE導(dǎo)入到GPU中。 發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過光纖發(fā)送端口發(fā)送出去。 GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。
3.2 TLK2711收發(fā)整體流程設(shè)計 
4路TLK2711接口,2路作為發(fā)送端口,2路作為接收端口,每路接口互不影響。 接收端:數(shù)據(jù)流從TLK2711接收端進(jìn)來,存到FPGA的DDR中,然后通過PCIE導(dǎo)入到GPU中。 發(fā)送端:數(shù)據(jù)存在飛騰主板中,飛騰通過PCIE寫入FPGA的DDR中,F(xiàn)PGA取走數(shù)據(jù),通過TLK2711發(fā)送端口發(fā)送出去。 GPU接收的數(shù)據(jù)通過千兆網(wǎng)發(fā)送到飛騰主板中。
3.3 FPGA流程框架 如圖所示,F(xiàn)PGA程序可以大體劃分為PCIe端點控制器XDMA、DDR3讀寫控制以及TLK2711收發(fā)控制三部分。FPGA與PC的PCIe通信采用Xilinx的XDMA IP,邏輯模塊間采用AXI總線互聯(lián)方式。XDMA0數(shù)據(jù)鏈路為飛騰主板主控數(shù)據(jù)鏈路,XDMA1數(shù)據(jù)鏈路為Orin_GPU卡主控數(shù)據(jù)鏈路。 Orin_GPU卡主控數(shù)據(jù)鏈路:tlk2711子卡的接收端口接收到圖像數(shù)據(jù)緩存到第一組ddr3中,大小為4GB,對0-4GB的ddr3空間讀寫,gpu把圖像數(shù)據(jù)讀出并作處理。鏈路數(shù)據(jù)流向分為數(shù)據(jù)發(fā)送(FPGA-PC)(這里飛騰主板和Orin_GPU卡都稱為PC): 數(shù)據(jù)接收過程描述(FPGA-PC):圖像數(shù)據(jù)以1.6Gbps線速率通過rxp接口,wr_fifo把16bit數(shù)據(jù)位寬轉(zhuǎn)化為128bit數(shù)據(jù)位寬,fdma_ctrl的寫ddr3模塊把數(shù)據(jù)寫入到0-4GB的地址空間,通過定義的寄存器信號告訴主機(jī)軟件取出對應(yīng)地址空間的數(shù)據(jù),通過dma的C2H通道直接寫入主機(jī)內(nèi)存。 飛騰主板主控數(shù)據(jù)鏈路:飛騰主板把圖像處理結(jié)果寫入板卡第二組ddr3中,fpga邏輯讀出ddr3中的數(shù)據(jù)通過tlk2711子卡的發(fā)送端口發(fā)送出去。(這里飛騰主板和Orin_GPU卡都稱為PC)。 數(shù)據(jù)發(fā)送過程描述(PC-FPGA):為了實現(xiàn)數(shù)據(jù)發(fā)送,主機(jī)軟件從主機(jī)內(nèi)存固定位置讀出圖像處理數(shù)據(jù)發(fā)送到DMA的H2C通道,寫入到板載第二組DDR3的0-4GB的空間,主機(jī)軟件通過寄存器通知fdma_ctrl的讀ddr3模塊取出對應(yīng)地址ddr3的數(shù)據(jù),通過rd_fifo把數(shù)據(jù)128bit位寬變化到16bit后,給到tlk2711子卡的發(fā)送模塊,最后數(shù)據(jù)以1.6Gbps的線速率通過txp口發(fā)送出去。
3.4 軟件PCIE讀流程 軟件啟動開始接收,軟件通過寄存器使能FPGA開始接收數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件開始輪詢FPGA寫入完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說明FPGA已經(jīng)寫入數(shù)據(jù),軟件讀取DDR中數(shù)據(jù),完成一次讀取數(shù)據(jù)交互流程。 之后重復(fù)單次流程,直到數(shù)據(jù)接收完整。
3.5 軟件PCIE寫流程 軟件啟動開始發(fā)送數(shù)據(jù)(光纖或者TLK2711數(shù)據(jù)),軟件把數(shù)據(jù)寫入DDR中, 通過寄存器使能FPGA開始發(fā)送,軟件開始輪詢FPGA讀取完成寄存器,當(dāng)讀到FPGA完成標(biāo)志,說明FPGA已經(jīng)把DDR的數(shù)據(jù)取走,這樣就完成一次寫入數(shù)據(jù)交互流程。之后重復(fù)單次流程,直到數(shù)據(jù)發(fā)送完整。
3.6飛騰GPU數(shù)據(jù)交互 在背板設(shè)計中,飛騰主板和GPU千兆網(wǎng)互聯(lián)和RS232互聯(lián)。考慮傳輸速度,使用千兆網(wǎng)進(jìn)行傳輸。使用TCP/IP協(xié)議,飛騰處理器為TCP服務(wù)端,GPU為TCP客戶端主動進(jìn)行鏈接請求。 3.7 客戶端界面 客戶端具有狀態(tài)信息顯示,控制四通道光纖數(shù)據(jù)發(fā)送或者雙通道TLK2711接口數(shù)據(jù)發(fā)生功能。上位機(jī)自動識別FPGA子卡類型,切換操作界面。 四通道光纖子卡界面 雙通道TLK2711子卡界面   |