MoSys公司最新推出的串行存儲器Bandwidth Engine IC,利用高效的10G串行接口和創新架構達到了每秒20億次以上的存儲器訪問速度。這種訪問速度是支持100GE(千兆位以太網)和100Gbps匯聚線卡要求的數據速度所必需的。Bandwidth Engine IC的ALU和存儲器架構具有一定的智能,能夠加速諸如統計等網絡操作,設計用于高數據速度、10年期望壽命、政府強制要求降低功耗等具有嚴格限制規范的應用。 Bandwidth Engine有別于傳統網絡器件的關鍵在于快速、智能訪問方面,因此能夠在數據包分級應用中發揮很好的作用。這要求MoSys采用高度合作的設計方法。為了達到這個訪問速率,Bandwidth Engine IC運用了嚴格的產品定義、設計嚴謹的RTL代碼、高速和低延時的串化解串器(SerDes)、MoSys開發的1T-SRAM核心技術以及創新的版圖與封裝設計,最終形成了一款利用高速串行接口減輕SoC封裝和系統設計挑戰的器件。通過將傳統存儲器件的塊(bank)合并到一個Bandwidth Engine,不僅提高了總體系統性能,而且降低了功耗和成本。 Bandwidth Engine使用了MoSys公司最初的技術創新成果--1T-SRAM。這是一種接近SRAM速度的嵌入式DRAM存儲器,其關鍵技術是采用了帶小容量內存塊的eDRAM陣列架構,因而減少了位線上的電容和電阻負載,具有更低的延時。 另外,1T-SRAM接口隱藏了DRAM刷新和預充周期,內存塊能以3.9ns的周期實現“像SRAM一樣快的”讀寫速度。嵌入式存儲器被組織成4個獨立的分區,每個分區又被分成64(32Kb×72)個內存塊,因此總存儲容量為576Mb。每個分區有一個寫端口和兩個讀端口,并以循環TDM方式提供訪問。這種陣列架構單元的組合允許在每個3.9ns周期內實現高達12次的在線操作。因此在10G工作模式下,每1ns就能發出三條指令。 Bandwidth Engine的核心存儲器陣列架構增加了效率高達90%的創新型低延時接口,而該接口又是運行在1到16條與CEI-11或XFI兼容的差分串行鏈路之上。另外還針對高訪問速率器件優化了Gigachip接口(GCI),數據包長為80位,其中72位是凈負荷,8位用于CRC校驗。GCI串行接口是專為芯片到芯片通信設計的,而不是為普通的網絡串化解串器應用所設計,包含有一個自動的差錯恢復機制,可保證目標企業和運營商市場所要求的可靠數據傳輸。 MoSys選用了平均同步接口來最大限度地減少與傳統串化解串器有關的時延。數據通過控制模塊形成管線,然后以位流形式饋送給4個1T-SRAM分區。在發送側,隨著每個分區的依次激活(1ns一個),最多可以讀出2個數據字,并返回到GCI接口,再傳送給主機。 Bandwidth Engine的另一個創新特性是一個分區一個的片載ALU,可以用來通過內部“讀-修改-寫”指令操作數據。ALU的使用能夠卸載主處理器工作量,并釋放出接口資源用于其它操作,從而實現更高的性能和能效。由于ALU與每個分區是關聯的,因此工作在10G接口速率時每1ns就能發送一條指令。為了確保通過ALU操作的數據完整性,需要對72位字的ECC特征位進行檢查,并在必要時進行糾正和重新計算。 在硅片方面,MoSys選擇了臺積電(TSMC)作為制造代工廠。器件采用了臺積電的嵌入式DRAM工藝,這種工藝基于的是位線下電容技術,如圖1所示。通過整合臺積電的穩定工藝和公司自己的創新芯片設計,MoSys開發出了成功的器件。與位線連接的檢測放大器利用了邏輯兼容的臺積電工藝中所有可用的金屬層。共使用了三級復用式檢測放大器。第一級位線在金屬層1中長有20微米,用于將內存單元連接到第一級檢測放大器。第二級檢測放大器復用了兩個第一級檢測放大器的輸出,在金屬層4中經過750微米位線到達第二級檢測放大器。最后,8個第二級輸出端使用金屬層6的750微米位線復用到第三級檢測放大器。 圖1:Bandwidth Engine的SEM橫斷面。 Bandwidth Engine的版圖設計也考慮到了主要設計目標--高訪問速率和低時延。傳統的串化/解串(SerDes)器件將I/O放在芯片的邊緣,而Bandwidth Engine改變了這一傳統做法,將I/O、Gigachip接口和時鐘電路放在裸片的中心。這樣做有兩大好處:時延可以減少2-3ns,而且延時均衡。將GCI接口和SerDes通道放置在芯片中心還能減少接收器/收發器(Rx/Tx)串擾,允許未來新一代Bandwidth Engine具有相同的引腳輸出。這種方法面臨的設計挑戰是在內存、內核和芯片SerDes之間要保持足夠的噪聲隔離度。 裸片版圖示于圖2。在SerDes模塊的中心位置有兩個可以看到的電感。這兩個電感用于組成兩個LC振蕩器,這兩個振蕩器則用于兩個鎖相環(PLL)中的壓控振蕩器(VCO)。用兩個PLL的目的是為了覆蓋芯片使用的6-10GHz頻率范圍。LC振蕩器用來創建低抖動PLL。 圖2:Bandwidth Engine的平面圖。注意裸片中間支持電路的放置。 封裝是與芯片協同設計的。封裝使用了8個金屬層,允許設計師靈活地精確調諧封裝引線的串聯電感。封裝電感設計用于補償寄生焊盤電容。這樣可以得到更加清晰的眼圖,從而提高反射損耗,降低數據誤碼率。 為了降低測試成本(當測試儀器必須連接到Bandwidth Engine上的15個通道時測試成本是很高的),芯片上集成了一個專門設計用于測試的處理器。該處理器可以在芯片的制造過程中進行重新編程,因此當從測試期間發現的弱比特特征了解更多信息后允許產品工程師修改測試算法,從而確保達到支持10年壽命目標的企業級與運營級質量和可靠性。未來還可能減少甚至消除這部分程序的下載燒錄時間。 總之,這是架構、設計、版圖、工藝、測試和制造小組之間一次成功的團隊合作,允許Bandwidth Engine達到企業用戶要求的每秒20億次數據訪問速率和10年壽命。覆蓋Bandwidth Engine設計的專利在一年半以前就提出申請了,目前正在專利申請受理階段。MoSys在與一級網絡伙伴的合作中贏得了多項設計。設計本身是可擴展的,MoSys認為還能進一步改進并用于400GE。下一代產品將有50%的性能提高。 |