現在,人們需要采用一種創新型架構來管理數百Gbps的系統性能,以實現全線速下的智能處理能力,并擴展至Tb級性能和每秒10億次浮點運算水平。實現上述要求的必要條件并非僅僅是改善每個晶體管或系統模塊的性能,或者增加系統模塊數量這么簡單,而是要從根本上提高通信、時鐘、關鍵路徑以及互連性能,以滿足行業新一代高性能應用(如下圖所示)對海量數據流和智能數據包、DSP或圖像處理等的要求。 圖1 ASIC級可編程架構的必備條件 UltraScale 架構通過在完全可編程的架構中應用最先進的ASIC 技術,可應對上述這些挑戰。該架構能從20nm平面FET結構擴展至16nm鰭式FET晶體管技術甚至更高的技術,同時還能從單芯片擴展到3D IC。UltraScale架構不僅能解決系統總吞吐量擴展和時延方面的局限性,而且還能直接應對先進工藝節點上的頭號系統性能瓶頸,即互連問題。 圖2:ASIC級可編程架構的必備條件 UltraScale™架構具有無與倫比的高集成度、高容量和ASIC級系統性能,可滿足最嚴苛應用的要求。UltraScale架構經過精調可提供大規模布線能力并且與Vivado®設計工具進行了協同優化,因此該架構的利用率達到了空前的高水平(超過90%),而且不會降低性能。 為您量身定做的新一代架構 賽靈思對UltraScale架構進行了數百項設計提升,并將這些改進實現有機結合,讓設計團隊能夠打造出比以往功能更強、運行速度更快、單位功耗性能更高的系統。 UltraScale架構與Vivado設計套件結合使用可提供如下這些新一代系統級功能: • 針對寬總線進行優化的海量數據流,可支持數Tb級吞吐量和最低時延 • 高度優化的關鍵路徑和內置高速存儲器,級聯后可消除DSP和包處理中的瓶頸 • 增強型DSP slice包含27x18位乘法器和雙加法器,可以顯著提高定點和IEEE 754標準浮點算法的性能與效率 • 第二代3D IC系統集成的晶片間帶寬以及最新3D IC寬存儲器優化接口均實現階梯式增長 • 類似于ASIC的多區域時鐘,提供具備超低時鐘歪斜和高性能擴展能力的低功耗時鐘網絡 • 海量I/O和存儲器帶寬,用多個硬化的ASIC級100G以太網、Interlaken和PCIe® IP核優化,可支持新一代存儲器接口功能并顯著降低時延 • 電源管理可對各種功能元件進行寬范圍的靜態與動態電源門控,實現顯著節能降耗 • 新一代安全策略,提供先進的AES比特流解密與認證方法、更多密鑰模糊處理功能以及安全器件編程 • 通過與Vivado工具協同優化消除布線擁塞問題,實現了90%以上的器件利用率,同時不降低性能或增大時延 系統設計人員將這些系統級功能進行多種組合,以解決各種問題。下面的寬數據路徑方框圖可以很好地說明這一問題。 圖3:海量數據流挑戰 圖中,高速數據流(Tbps級的匯聚速率)從左側進入再從右側流出。可通過運行速度為數Gbps的高速SerDes收發器進行I/O傳輸。一旦以數Gbps速度傳輸的串行數據流進入芯片,就必須扇出,以便與片上資源的數據流、路由和處理能力相匹配。新一代系統要求使用極高的數據速率,因此時鐘歪斜、大量總線布置以及系統功耗管理方面的挑戰會達到令人生畏的程度。 UltraScale架構提供類似ASIC時鐘功能 多虧UltraScale 架構提供類似ASIC的多區域時鐘功能,使得設計人員現在可以將系統級時鐘放在整個晶片的任何最佳位置上,從而使系統級時鐘歪斜降低多達50%。將時鐘驅動的節點放在功能模塊的幾何中心并且平衡不同葉節點時鐘單元(leaf clock cell)的時鐘歪斜,這樣可以打破阻礙實現多Gb系統級性能的一個最大瓶頸。UltraScale架構的類似ASIC時鐘功能消除了時鐘放置方面的一切限制并且能夠在系統設計中實現大量獨立的高性能低歪斜時鐘資源,而這正是新一代設計的關鍵要求之一。這是與前幾代可編程邏輯器件所采用的時鐘方案的最大不同之處,而且實現了重大改進。 新一代路由:從容應對海量數據流挑戰 UltraScale架構的新一代互連功能與Vivado軟件工具進行了協同優化,在可編程邏輯布線方面取得了真正的突破。賽靈思將精力重點放在了解和滿足新一代應用對于海量數據流、多Gb智能包處理、多Tb吞吐量以及低時延方面的要求。通過分析我們得出一個結論,那就是在這些數據速率下,互連問題已成為影響系統性能的頭號瓶頸。 我們來做個類比。位于市中心的一個繁忙十字路口,交通流量的方向是從北到南,從南到北,從東到西,從西到東,有些車輛正試圖掉頭,所有交通車輛試圖同時移動。這樣通常就會造成大堵車。現在考慮一下將這一十字路口精心設計為現代化高速公路或主干道,情況又會如何。道路設計人員設計出了專用坡道(快行道),用以將交通流量從主要高速路口的一端順暢地疏導至另一端。交通流量可以從高速路的一端全速移動到另一端,不存在堵車現象。下面的兩幅圖說明了這一觀點: 賽靈思為UltraScale架構加入了類似的快速通道。這些新增的快速通道可供附近的邏輯單元之間傳輸數據,盡管這些單元并不一定相鄰,但它們仍通過特定的設計實現了邏輯上的連接。這樣,UltraScale架構所能管理的數據量就會呈指數級上升,如下圖所示。 通過UltraScale架構提供的高布線效率從根本上完全消除了布線擁塞問題。結果很簡單:只要設計合適,布局布線就沒有問題。這樣也使器件利用率達到90%以上,且不降低性能或增加系統時延。 下面的這兩幅圖顯示出UltraScale架構以及Vivado設計套件的相應改進對于系統性能和器件利用率的改善效果。與競爭產品PLD 架構相比,UltraScale架構將利用率和性能提升到了全新的高度,無需像PLD架構那樣為了實現設計目標,不得不在利用率、性能、時延和延長布局布線時間等方面進行權衡取舍。 圖4 :UltraScale架構在不降低性能的前提下提供高利用率 圖4中左圖的藍綠色區域表示:如果系統設計適合使用UltraScale器件,那么就可以布線,而且不受設計復雜性和器件利用率方面的制約。左圖中的灰色區域表明Vivado設計套件在任何利用率水平下的運行速度都比競爭設計工具快2至12倍。兩幅圖的藍綠色區域都表明Vivado 設計套件是唯一可以在高器件利用率條件下對大型復雜系統設計進行布局布線的工具。同時,右圖的灰色區域顯示采用Vivado設計套件創建出設計的速度在任何利用率等級下都比競爭產品快25%。UltraScale架構可支持海量數據流與布線,Vivado設計套件與之結合使用,能夠在競爭產品無法企及的設計空間內提供更高的系統性能。 UltraScale架構3D集成可增強所有功能 最新Virtex UltraScale和Kintex UltraScale系列成員產品能使賽靈思第二代3D IC架構中的連接功能資源數量及相關晶片間帶寬實現階梯式增長。布線、帶寬和最新3D IC大容量存儲器優化接口容量的顯著增加能確保新一代應用在極高的利用率水平下實現目標性能。 實現快速、智能處理 從噪聲中提取更多信號,創建更加逼真的畫面,以及應對無止境的數據包流量增長,所有這些都在對智能處理性能提出更高要求。與此同時,還要將成本控制在規定的預算范圍內,這樣就給設計帶來了諸多實際限制。簡言之,市場需要以更少的成本實現更高的系統性能,這是大多數電子產業永恒不變的趨勢。而賽靈思的UltraScale器件非常適合滿足這些多元化的設計要求。 最新的27x18位乘法器和雙加法器以及關鍵路徑優化功能顯著提升了定點和IEEE 754標準浮點算法的性能與效率。UltraScale架構能夠讓雙精度浮點運算的資源利用率實現1.5倍的效率提升,并具有更多的DSP資源數量,因此可以滿足新一代應用在TMAC處理性能和集成方面的要求,并實現最優價格點。 UltraScale架構經過專門優化,可解決以數百Gbps速率運行的包處理功能有關的關鍵路徑瓶頸問題,這些功能包括:誤差校正與控制(ECC)、循環冗余校驗(CRC)以及前向糾錯(FEC)。增強型DSP子系統,與硬化的100 GbE MAC和Interlaken接口以及賽靈思SmartCore 包處理與流量管理IP完美結合在一起,采用最佳封裝,能夠實現線速高達數百Gbps的包處理功能。 提供海量I/O和存儲器帶寬 UltraScale架構能在顯著增強高速SerDes收發器性能的同時大幅降低其功耗。Virtex UltraScale器件采用可支持5 Tbps以上串行系統帶寬的新一代SerDes(收發器)。ASIC級SerDes的靈活性要高于早期器件中的SerDes,同時保留了前代產品可靠的自適應均衡功能(自動增益控制、連續時間線性均衡、判定反饋均衡以及sliding 滑動DFE)。賽靈思的自適應均衡功能可將誤碼率維持在無法察覺的水平(<10 17)并允許UltraScale SerDes直接驅動每秒高達數GHz的高速背板。 賽靈思UltraScale架構集成了多個DDR3/4-SDRAM存儲控制器以及硬化的DDR物理層(PHY)片上模塊,從而將存儲器接口功能推向一個全新高度。UltraScale器件包含: • 更多SDRAM控制器 • 更廣泛的SDRAM端口 • 更快的存儲器端口 硬化的SDRAM PHY模塊與軟核PHY相比能夠將讀取時延降低30%,同時它具有控制DDR4 SDRAM的能力,可將外部存儲器功耗降低20%以上。 片上模塊RAM(BRAM)經重新構建后可與系統中其它可編程模塊性能相匹配并降低功耗。利用新的架構特性,設計人員無需使用其它片上布線或邏輯資源就能高效創建出大規?焖賀AM陣列和FIFO。 UltraScale架構滿足新一代系統的系統級功耗要求 每一代All Programmable邏輯器件系列都能顯著降低系統級功耗,UltraScale架構正是建立在這一傳統優勢之上。低功耗半導體工藝以及通過芯片與軟件技術實現的寬范圍靜態與動態電源門控可將系統總功耗降低至賽靈思7系列FPGA(業界最低功耗的All Programmable器件)的一半。 圖5:采用UltraScale架構實現最低總功耗 降低功耗對設計人員來說意味著兩件事:(1)更低的功耗預算和散熱管理要求;(2)更高的速度。這兩點對滿足新一代應用不斷提高的要求極為重要。 UltraScale的IP保護與防篡改安全功能 賽靈思的安全解決方案與創新產品已經歷了五代以上的發展,UltraScale All Programmable架構在這一基礎上引入了多種增強型安全特性,可對載入器件內的IP提供更強的保護并實現防篡改功能,繼續保持著延續賽靈思在安全解決方案領域的領先地位。UltraScale 架構在安全性方面的改進包括:更強大更先進的AES比特流解密與認證方案;更多密鑰模糊處理功能;確保在編程過程中無法對加密密鑰進行外部訪問。這樣就能得到穩定可靠的業界領先解決方案,滿足不斷變化的新一代安全要求。 UltraScale與Vivado協同優化 = 成功保障 要為最嚴苛的應用提供前所未有的集成度、容量和ASIC級系統性能,并實現90%以上的空前器件利用率且不降低性能,這就需要采用業界獨有的SoC增強型設計環境。 Vivado設計套件是一款全新的SoC增強型設計環境,最初針對賽靈思7系列器件推出,主要用于未來十年的All Programmable器件(例如UltraScale架構)。Vivado能解決可編程系統集成與實現方面的關鍵設計瓶頸,其生產力相對同類競爭開發環境提高了四倍。 要實現新一代設計提出的超高性能、集成度以及結果質量目標,就需要采用全新的器件布局布線方案。傳統FPGA布局布線工具依靠模擬退火作為主要的布局優化算法,無法顧及擁塞程度或總導線長度等全局設計指標。要實現具備多Tb性能的設計,需要采用寬總線而且要求時鐘歪斜幾乎為零。因此,采用模擬退火這種不考慮總體導線長度和擁塞情況的布局布線算法是絕對不可行的。 Vivado設計套件利用多變量成本函數找出最優布局方案,這樣,設計人員就可以快速確定布線方案,并使器件利用率達到90%以上且不降低性能。與采用其他解決方案相比,這種方式的運行時間更短而且結果的變化程度也更小,這樣實現設計收斂所需的迭代次數就更少,并且性能和器件利用率都達到了業界前所未有的高水平。 UltraScale架構與工藝技術 工藝技術在任何芯片架構中都是一個重要的考慮因素,賽靈思UltraScale架構可以支持多種工藝技術。賽靈思與臺積(TSMC)合作推出的28nm HPL(低功耗高性能)工藝技術是賽靈思7系列All Programmable器件能夠取得巨大成功的主要因素。憑借之前合作所取得的經驗,賽靈思與臺積又開發出了20nm 20SoC平面工藝技術,用以支持預計將于2013年推出的第一代賽靈思UltraScale All Programmable器件。 然而,賽靈思設計UltraScale架構還有另一個目的,那就是充分利用繼20SoC之后的工藝節點16FinFET所提供的更高的性能、容量和節電性能。 另外,在賽靈思“FinFast”開發計劃(該計劃匯集了賽靈思和臺積的優秀工程設計人才)的支持下,賽靈思UltraScale架構和Vivado 設計套件針對臺積 16FinFET工藝技術進行了協同優化。這樣,賽靈思與臺積將于2014年推出第二代UltraScale All Programmable器件芯片。 結論 為了實現數百Gbps的系統級性能,實現全線速智能處理,并擴展至Tbps和每秒10億次的浮點運算水平,我們需要采用一種全新的架構方案。賽靈思根據新一代高性能系統需求已經開發出了新一代UltraScale 架構和Vivado設計套件。UltraScale架構能提供ASIC級的系統性能,滿足最嚴苛的新一代應用要求:即實現海量I/O和存儲器帶寬、海量數據流、極高的DSP與包處理性能,并在不影響性能的前提下實現超過90%的前所未有的器件利用率。 UltraScale是業內首款在All Programmable架構中應用最前沿ASIC架構增強功能的產品,能夠從20nm平面FET擴展到16nm 鰭式FET,甚至更先進的技術,此外還能從單芯片電路擴展至3D IC。 通過整合臺積的先進技術并與Vivado新一代設計套件實現協同優化,賽靈思提前一年實現同類競爭產品1.5倍至2倍的系統級性能與集成度。這相當于我們比競爭對手領先整整一代。 如需了解有關賽靈思UltraScale架構的更多信息,敬請訪問china.xilinx.com/ultrascale。 |