作者:Altera公司總編輯Ron Wilson 在一類產品發售之前,還沒有一種半導體工藝像20 nm節點這樣引起這么大的爭議。爭論在于,節點是否應該等待即將投產的EUV光刻法。它并沒有:雙模式的布板雖然昂貴而且有局限,但是滿足了高分辨率掩膜層的需求。 在節點是否需要finFET晶體管上也有爭論。Intel、IBM和UMC持贊成態度;三星、TSMC和GLOBALFOUNDRIES則反對。TSMC以前曾有些模棱兩可,推進了16 nm finFET半節點計劃。而影響最大的是,NVIDIA CEO Jen-Hsun Huang公開質疑整個20 nm節點的經濟可行性,他認為,每個晶體管的成本永遠不可能低于28 nm。 圖1.20 nm技術逐漸成熟起來,其成本可能永遠不會低于28 nm技術。 注釋:數據基于NVIDIA的公開數 雖然有爭論,但是,TSMC發布了其20 nm參考流程。已經著手開始芯片設計。客戶已經開始試用測試硅片。現在需要提出的問題是,20 nm芯片系統(SoC)產品代對于系統供應商意味著什么。這一節點也僅僅只是摩爾定律發展的另一個臺階嗎?對于SoC用戶,它會帶來很大的新挑戰嗎?有沒有隱藏的風險?為找到答案,我們與20 nm硅片工程師進行了交流,查閱了最近的會議論文。 非常具有挑戰性的工藝 20 nm節點的爭論在于它非常難以進行投產,技術挑戰還僅僅是一個小問題。但是,從系統設計人員的角度看,使用SoC而不是開發它,所有的都可以歸結為5個關鍵點:成本、密度、速度、功耗和2.5D。系統設計人員的體驗在很大程度上取決于芯片設計人員怎樣處理好這5個關鍵點的相互關系。 成本是最主要的。NVIDIA的Huang先生的觀點可能是正確的:隨著成本的大幅攀升,對于同樣數量的晶體管,20 nm一直要比28 nm昂貴得多。對于采用了大量非線性電路的SoC,例如,RF或者其他模擬晶體管,單片無源組件,以及靜電放電保護結構等,成本差距要比僅采用高密度邏輯的SoC大得多。非常簡單的是,對于SoC移植到20 nm,應該有一些優點——集成、性能、能效,以及IP應用等,要優于28 nm。否則,無法彌補額外的高成本。 圖2.將一個高分辨率的模板分成兩個獨立的低分辨率模板的簡單例子。實踐中,實際使用雙模板需要有很多工藝步驟。 這就給我們帶來了密度問題:在同樣面積上,20 nm能否盡早完成工藝轉換。與28 nm相比,由于模板相關的設計規則導致降低了封裝效率,除此之外,20 nm每mm2的晶體管數量是其兩倍。芯片規劃人員通過幾種方法來使用越來越多的晶體管。 最明顯的方法是集成。如果您能夠將兩個28 nm SoC封裝到一個20 nm管芯中,結果是減小了芯片間延時,降低了I/O功耗,以及電路板級成本,這說明單位晶體管成本的提高是有好處的。而不明顯的是,規劃人員通過使用晶體管來提高性能或者能效。 一個非常簡單的例子:如果一片SoC在主要工作模式上是DRAM受限的,有時候擴大片內RAM能夠有效地減少對DRAM的訪問,這樣能夠極大地提高性能,大幅度降低I/O功耗。而晶體管更典型的應用是建立并行機制。在有大量線程、數據并行或者可以進行流水線工作的應用中,增加處理器要比提高時鐘頻率更有效。這一事實導致了從單核發展到多核SoC,在20 nm,將推動從多核到很多核的發展。 圖3.總共10個主要處理器,這一Cavium芯片基站設計表明了并行發展趨勢。 可能有些令人吃驚的是,晶體管問題也影響了模擬電路性能。例如,FPGA供應商Altera宣布,其28 nm工藝代芯片至芯片收發器最大速率從28 Gbps增加到20 nm FPGA的40 Gbps。這種增長的部分原因當然是來自更高的晶體管ft,以及雜散干擾的減小。Altera工程師說,而主要原因是更快、更復雜的數字均衡電路。此外,在很多其他應用中,與20 nm相比,設計人員能夠使用更多的晶體管,通過數字化來增強模擬信號通路的性能。 增加晶體管也能夠降低功耗,但這聽起來可能有些相互矛盾。一個例子是,設計人員在20 nm繼續采用了復雜的功耗管理策略。使用精細的狀態機和控制電路,設計人員的時鐘選通和電源選通策略的粒度更精細。當無法改變進入寄存器的數據時,常用的方法是減小周期時鐘。當整個子系統空閑時,電源選通一般只用在模塊級,而現在對于粒度越來越精細的結構,隨著周期的縮短,更多的采用了電源選通。更精細的粒度增加了晶體管開銷,但是,只要能夠降低功耗,很多設計人員還是會做出這種選擇。 更明顯的例子是ARM的big.LITTLE體系結構。除了主Cortex-A15,這一方法增加了第二個完整的CPU——Cortex-A7。當一個任務需要高性能時,系統啟動A15。當系統要處理的任務對性能要求不高時,它關斷A15,在功耗較低的A7上運行不關鍵的任務。結果是,大幅度降低了功耗,而且沒有犧牲最大性能。 消除難點 通過使用晶體管來提高性能在20 nm SoC是非常關鍵的,原因在于:在模塊級,20 nm芯片并不比相應的28 nm快很多。從公開的信息看,這還不是很明顯。例如,TSMC宣稱,其20 nm技術“…速度比28 nm技術高出30%…。”這并沒有達到我們工藝代之間翻倍的預期,但并不說明這不重要。在整個模塊上實現這么高的速率而不是在幾個關鍵通路上,那么,可能會需要大量使用低Vt晶體管,而且有很大的泄漏電流,帶來了更大的本地散熱問題。即使沒有散熱問題,設計也很難在20 nm很多工藝、電壓和溫度角上達到時序收斂。一些工程師建議,考慮到功耗和其他變化因素,只是把模塊導入到20 nm可能根本無法提高速率。 在20 nm更復雜的另一個問題是功耗。動態功耗——CV2f類,在原理上應該低于20 nm電路,前提條件是,尺寸更小的特性降低了雜散電容,工作電壓保持不變,頻率與28 nm的相似。雖然每個晶體管的動態功耗降低了,但是,平面工藝中,由于泄漏電流導致的靜態功耗在不斷增加。理論上,同樣的Vt,finFET的亞閾值泄漏電流要比平面晶體管低得多,減小了單組件的最大泄漏。因此,采用finFET工藝,設計人員可以使用與28 nm相似的Vt和Vcc,同時提高了性能,降低了靜態功耗,或者使用較低的Vt,支持更低的Vcc,同時降低了動態和靜態功耗。最好的選擇取決于電路以及最終系統的應用情況。 使用或者不使用finFET,功耗都是問題。靜態和動態功耗之和不會像28 nm那樣簡單的加起來。而密度增加了兩倍。計算表明,功耗密度,也就是本地散熱,限制了某些20 nm模塊的布板和時鐘頻率。 最后,是2.5D。20 nm工藝本質上更適合制造2.5D封裝所需要的硅片直通孔(TSV)。時機上巧合的是,代工線在20 nm工藝節點開發他們的產品TSV技術。結果是,在20 nm工藝代,我們可能會看到大規模使用TSV來連接多個管芯的有源電路和無源硅片基底。 這一技術的前景非常廣闊。對于面積或者焊盤受限的管芯,2.5D封裝大幅度提高了資源利用率。通過采用封裝內寬字I/O替換DDR3,極大的提高了DRAM帶寬。它能夠在一個很小的引腳布局中集成無法在一個管芯中制造實現的各種技術。但是,從技術和商業角度看,問題也很明顯。 系統設計人員的觀點 這對于系統設計人員而言意味著什么?首先,并不是所有的SoC產品線能夠自動移植到20 nm。最早應用的器件晶體管數量加倍,能夠有效的提高系統性能,降低功耗和成本。早期應用的例子包括,多核服務器CPU、CPU/GPU組合芯片、高端FPGA,以及某些ASIC SoC——可能會從移動市場開始。 其次,是可能會大量使用多處理任務的芯片。對于使用芯片供應商提供的完整參考設計的系統設計團隊而言,可能體會不到這一點。正如我們在另一篇文章中所討論的,如果設計團隊涉及到編寫應用程序代碼、布線中斷、管理DRAM數據流,或者對實時行為建模等,這可能會是很大的問題。 對于系統設計人員,更明顯的是,這些芯片需要大量的功耗管理工作。芯片設計人員會用盡所有的方法來解決功耗以及工藝變化帶來的問題,包括動態電壓頻率調整、動態電源選通,以及自適應電壓調整等方法。對于系統設計人員,所有這些方法都很重要。更特別的是,他們能夠完善電源網絡設計,前兩項會在實時行為分析中引入可變或者非確定性延時。 總之,20 nm會延續摩爾定律在集成上發展趨勢,但是要付出成本代價。2.5D封裝技術的發展,進一步提高了集成度,但是也增大了成本,部分解決了DRAM總線電源和帶寬問題,在一個封裝中集成了種類更多的IC。隨著系統性能的提高,這一節點也增加了體系結構的復雜度。目前為止,它也是功耗管理最復雜的節點。 |