格芯贏得AI芯片業(yè)務(wù)

發(fā)布時(shí)間：2020-8-20 15:34 發(fā)布者：eechina

關(guān)鍵詞： 12LP , 神經(jīng)網(wǎng)絡(luò) , 格芯

12LP+工藝改善晶體管，IP加速神經(jīng)網(wǎng)絡(luò)

作者：Linley Gwennap（2020年7月27日）

像Nvidia這樣的芯片巨頭可以負(fù)擔(dān)得起7nm技術(shù)，但初創(chuàng)公司和其他規(guī)模較小的公司卻因?yàn)閺?fù)雜的設(shè)計(jì)規(guī)則和高昂的流片成本而掙扎不已——所有這些都是為了在晶體管速度和成本方面取得適度的改善。格芯的新型12LP+技術(shù)提供了一條替代途徑，通過減小電壓而不是晶體管尺寸來降低功耗。格芯還開發(fā)了專門針對AI加速而優(yōu)化的新型SRAM和乘法累加(MAC)電路。其結(jié)果是，典型AI運(yùn)算的功耗最多可減少75%。Groq和Tenstorrent等客戶已經(jīng)利用初代12LP技術(shù)獲得了業(yè)界領(lǐng)先的結(jié)果，首批采用12LP+工藝制造的產(chǎn)品將于今年晚些時(shí)候流片。

為了實(shí)現(xiàn)這些結(jié)果，格芯(GF)采取了整體方法來加速AI運(yùn)算，特別是推理卷積神經(jīng)網(wǎng)絡(luò)(CNN)。此工作負(fù)載非常依賴MAC運(yùn)算，但格芯發(fā)現(xiàn)，大部分功耗實(shí)際上用在從本地SRAM讀取數(shù)據(jù)并將其傳輸?shù)組AC單元上。新的SRAM設(shè)計(jì)大大降低了CNN和其他經(jīng)常訪問長數(shù)據(jù)向量的應(yīng)用的功耗。新的MAC針對大多數(shù)AI加速器的較小數(shù)據(jù)類型和較低時(shí)鐘速度而設(shè)計(jì)，這也有助于節(jié)省功耗。SRAM單元中的成對晶體管經(jīng)過重新設(shè)計(jì)以提高匹配度，使電壓得以降低，從而減小所需的電壓裕量。

格芯在放棄7nm及更小線寬技術(shù)的計(jì)劃之后轉(zhuǎn)而選擇了這條道路，專注于FD-SOI、SiGe和其他差異化技術(shù)（參見MPR 8/13/18，“格芯新戰(zhàn)略”）。12LP+和AI方面的努力就是其差異化戰(zhàn)略的又一例證。這種方法的優(yōu)勢在某些方面要比7nm更大，但成本更低。以前，這家晶圓廠專注于制造AMD公司的高性能CPU，但隨著AMD將其業(yè)務(wù)轉(zhuǎn)移至臺(tái)積電，修訂后的戰(zhàn)略已幫助格芯吸引到新客戶。

為AI而設(shè)計(jì)

在典型的高性能CPU中，本地SRAM每周期提供一個(gè)完整的緩存行，然后CPU通過多路復(fù)用器(mux)選擇所需的字。例如，使用256位緩存行的64位CPU需要一個(gè)4:1多路復(fù)用器，如圖1(a)所示。在這種情況下，即使CPU每個(gè)周期僅使用64位，SRAM陣列中的所有256位緩存行也會(huì)在每次訪問時(shí)放電。這種方法最大程度地減小了SRAM延遲，從而有可能提高最大時(shí)鐘速度或減少流水線級數(shù)——這二者都是影響CPU性能的關(guān)鍵因素。

圖1. 格芯AI專用存儲(chǔ)器。通用陣列最大程度地減小了隨機(jī)存取的延遲。添加鎖存器會(huì)增加延遲，但會(huì)降低順序存取的功耗。

AI加速器通常以比PC處理器低的時(shí)鐘速度運(yùn)行，其設(shè)計(jì)師更關(guān)心吞吐量而不是延遲。此外，CPU通常具有隨機(jī)存取模式，但CNN產(chǎn)生的則是順序存儲(chǔ)器存取，其處理的向量常常具有數(shù)以百計(jì)或數(shù)以千計(jì)的元素。為了更好地支持這些設(shè)計(jì)，格芯在SRAM陣列和多路復(fù)用器之間添加了一個(gè)鎖存器，如圖1(b)所示。這樣做會(huì)給讀取路徑增加一個(gè)周期，CPU設(shè)計(jì)師絕不會(huì)接受這種做法，但它為AI加速器帶來了可觀的好處。

首先，鎖存器將多路復(fù)用器與陣列解耦，從而減小位緩存行上的電容，進(jìn)而降低每次SRAM存取的功耗。但更大的好處是，在讀操作之后，完整的256位輸出仍位于鎖存器中。如果隨后的讀操作訪問下一個(gè)遞增存儲(chǔ)器地址，那么可以從鎖存器中讀取該值，而根本無需驅(qū)動(dòng)陣列。對于從很長的一系列順序地址讀取數(shù)據(jù)的程序，此設(shè)計(jì)只需在25%的時(shí)間內(nèi)為SRAM陣列供電。考慮到包括多路復(fù)用器和鎖存器的整個(gè)電路，格芯估計(jì)：相對于標(biāo)準(zhǔn)編譯的SRAM，CNN工作負(fù)載的功耗可降低53%。由于時(shí)序約束變得寬松，新的SRAM也縮小了25%。

盡管MAC單元的功耗僅占總功耗的一小部分，但其面積常常占總芯片面積的最大部分。新設(shè)計(jì)具有一個(gè)16x16位乘法器，與高端CPU所需的64位設(shè)計(jì)不同。基數(shù)為4的Booth乘法器饋入一個(gè)48位加法器，以進(jìn)行高精度累加。對于CNN推理中常見的8位整數(shù)(INT8)數(shù)據(jù)，可以將MAC單元拆分為每個(gè)周期產(chǎn)生兩個(gè)8x8乘法，并進(jìn)行24位累加。格芯的目標(biāo)工作頻率為1.0GHz，物理設(shè)計(jì)因而得以簡化，功耗和芯片面積得以減小。新的MAC單元比之前的12LP單元小12%；在相同電壓下都以1.0GHz運(yùn)行時(shí)，所需的功耗減少25%。

圖2. 12LP+的能耗降幅。在典型的脈動(dòng)MAC陣列中，新的SRAM和MAC設(shè)計(jì)使總功耗比之前的12LP技術(shù)降低了三分之一，而降低工作電壓又使總功耗降低了三分之一。（數(shù)據(jù)來源：格芯）

為減小電壓而付出的大量工作

為了進(jìn)一步降低功耗，格芯在工作電壓上狠下功夫。無論什么節(jié)點(diǎn)，一個(gè)重要挑戰(zhàn)是管理晶體管的制造偏差。柵極和溝道在形狀、厚度或摻雜上的微小差異可能會(huì)改變晶體管的功函數(shù)（衡量電子移動(dòng)通過材料所需能量的參數(shù)）。功函數(shù)會(huì)修改閾值電壓，從而決定晶體管何時(shí)切換狀態(tài)。對于給定工藝，晶圓廠會(huì)將工作電壓設(shè)置得足夠高，以確保芯片上的所有晶體管都能可靠地開關(guān)，即它必須超過最壞情況下的閾值電壓。

為了應(yīng)對這一挑戰(zhàn)，12LP+增加了雙功函數(shù)晶體管。此技術(shù)原本是為7nm工藝而開發(fā)的，格芯將其移植到了12nm節(jié)點(diǎn)中。新設(shè)計(jì)以不同方式摻雜NMOS和PMOS晶體管，以便更好地平衡其功函數(shù)。這種方法會(huì)使成本略有增加，但大大降低了所需的裕量：對于1.0GHz的目標(biāo)頻率，SRAM的工作電壓從12LP的0.7V降至12LP+的0.55V。12LP邏輯的標(biāo)稱電壓為0.8V，欠驅(qū)電壓為0.7V，但在12LP+中，它也可以采用0.55V工作。由于功耗與電壓的平方成比例，因此這些變化可以使功耗減半。

SRAM是主要的耗電器件，所以格芯專注于開發(fā)低壓存儲(chǔ)器單元。測試芯片顯示，即使在0.45V電壓下，新型LVSRAM的良率仍超過95%，這意味著設(shè)計(jì)在0.55V電壓下具有充足的裕量。為使邏輯功能受益，格芯委托Arm的物理知識(shí)產(chǎn)權(quán)(physical-IP)小組為12LP+工藝創(chuàng)建了一個(gè)完整的低壓標(biāo)準(zhǔn)單元庫。該庫定于9月上市，客戶可利用它來構(gòu)建完整的AI加速器以讓SRAM和MAC單元采用0.55V電壓工作。

新技術(shù)的總節(jié)電效果非常顯著。格芯對MAC單元的脈動(dòng)陣列（這是CNN加速的常見配置）的功耗進(jìn)行了仿真。仿真讀取權(quán)重和激活（圖2中顯示為SRAM功耗），讓數(shù)據(jù)移動(dòng)通過脈動(dòng)陣列（傳輸），然后執(zhí)行計(jì)算(MAC)。相對于基本設(shè)計(jì)，新的MAC單元和鎖存SRAM使總能耗減少了三分之一以上，而傳輸能耗保持不變。以0.55V電壓工作會(huì)產(chǎn)生一個(gè)全面的大壓降，使該設(shè)計(jì)的總節(jié)電量達(dá)到68%。

與往常一樣，格芯通過廣泛的物理元件庫（包括數(shù)字、模擬和無源器件）來支持12LP+工藝。格芯提供EDA工具（如Cadence和Synopsys插件）、Spice模型、設(shè)計(jì)規(guī)則檢查器、時(shí)序模型以及布局布線功能。為了提高良率，格芯提供了完整的可制造性設(shè)計(jì)(DFM)流程。格芯已針對12LP+重新優(yōu)化了12LP物理IP，包括存儲(chǔ)器和I/O接口。除了Arm的低壓標(biāo)準(zhǔn)單元庫外，Rambus和Synopsys等第三方IP供應(yīng)商也支持12LP+。

助力AI領(lǐng)先公司

這項(xiàng)新技術(shù)建立在格芯成功的12LP工藝基礎(chǔ)上，為行業(yè)領(lǐng)先的AI產(chǎn)品提供助力。例如，硅谷初創(chuàng)公司Groq開發(fā)了一種新的架構(gòu)方法來加速集數(shù)百個(gè)功能單元于單個(gè)核心中的神經(jīng)網(wǎng)絡(luò)。龐大的設(shè)計(jì)包括220MB的SRAM和200,000以上的MAC單元（參見MPR 1/6/20，“Groq撼動(dòng)神經(jīng)網(wǎng)絡(luò)”）。Groq采用12LP使如此大型設(shè)計(jì)的功耗保持在300W的預(yù)算之內(nèi)。該芯片以1.0GHz的初始速度，對INT8數(shù)據(jù)實(shí)現(xiàn)了每秒820萬億次運(yùn)算(TOPS)的峰值吞吐量，超過了所有其他已發(fā)布的加速器。

加拿大初創(chuàng)公司Tenstorrent也加快了推理速度，但它選擇了一個(gè)不同的設(shè)計(jì)目標(biāo)：總線供電的PCIe卡的功耗限值為75W。其第一款芯片具有120個(gè)獨(dú)立的核心，每個(gè)核心包含1MB的SRAM和大約500個(gè)MAC單元。這種方法仍然需要大量的SRAM和MAC單元。該芯片以1.3GHz的初始速度可提供368 TOPS（參見MPR 4/13/20，“Tenstorrent提升AI性能”）。12LP技術(shù)幫助Tenstorrent實(shí)現(xiàn)了每瓦4.9 TOPS的性能，這一效率在數(shù)據(jù)中心產(chǎn)品中遙遙領(lǐng)先，如圖3所示。

在這個(gè)市場上占有最大份額的Nvidia最近發(fā)布了基于新型Ampere架構(gòu)的A100加速器。Ampere引入了許多創(chuàng)新特性，峰值性能提高到624 TOPS，超過了除Groq之外的所有已發(fā)布芯片。然而，盡管采用7nm工藝，但A100仍需要400W TDP，比之前的12nm產(chǎn)品還高33%。為了適應(yīng)功耗預(yù)算的增加，Nvidia不得不降低時(shí)鐘速度（相對于12nm產(chǎn)品），并禁用芯片上15%的核心。這是一種不尋常的策略，可能意味著芯片功耗大大高于仿真功耗（參見MPR 6/8/20，“Nvidia A100稱霸AI性能”）。因此，雖然A100的晶體管較小，但其每瓦性能嚴(yán)重落后于Groq和Tenstorrent芯片。

與格芯的12nm工藝相比，臺(tái)積電7nm工藝的一個(gè)優(yōu)點(diǎn)是晶體管密度增加一倍，使得Nvidia可將超過500億個(gè)晶體管封裝到A100中。為了幫助客戶在這方面競爭，格芯支持各種小芯片方法。格芯在多芯片封裝方面擁有豐富的經(jīng)驗(yàn)，包括具有高帶寬存儲(chǔ)器(HBM)的2.5D硅中介層設(shè)計(jì)。針對3D芯片堆疊，格芯已開發(fā)出混合晶圓鍵合(HWB)技術(shù)，其使用間距為5.76微米的硅通孔(TSV)，并有密度提升的路線圖。對于低密度互連，客戶可以在便宜的有機(jī)襯底上構(gòu)建小芯片配置，類似于AMD的Rome處理器。這些小芯片方法中的任何一種都能在不遷移到7nm工藝的情況下實(shí)現(xiàn)很高的晶體管數(shù)量。

價(jià)格和供貨情況

格芯的12LP+技術(shù)已可用于設(shè)計(jì)啟動(dòng)。我們預(yù)計(jì)量產(chǎn)將從2021年下半年開始。有關(guān)更多在線信息，請?jiān)L問tinyurl.com/yxam2z7l。

優(yōu)于7nm

臺(tái)積電聲稱，相對于其10nm節(jié)點(diǎn)，其7nm技術(shù)可使時(shí)鐘速度提高多達(dá)20%，功耗降低多達(dá)40%（參見MPR 5/20/19，“EUV工藝實(shí)現(xiàn)量產(chǎn)”）。但是，這些最佳情況下的數(shù)字都假定晶體管的負(fù)載很輕。復(fù)雜的處理器設(shè)計(jì)通常受限于金屬電容而不是晶體管速度，因此只能獲得上述好處的一半或更少。如前所述，Nvidia的7nm A100比其12nm的前代產(chǎn)品要慢，而高通公司首款7nm處理器Snapdragon 855的最大CPU速度僅比Snapdragon 845提高了2%。臺(tái)積電預(yù)期5nm的收益將小于7nm，因?yàn)楦嗟厥褂肊UV會(huì)增加每片晶圓和流片的成本。

格芯的12LP+提供了一條替代路徑，與臺(tái)積電的7nm相比，功耗大幅降低，成本則沒有增加。功耗降低主要?dú)w功于新的雙功函數(shù)晶體管，它支持0.55V電壓選項(xiàng)。臺(tái)積電的7nm技術(shù)提供超低VT (ULVT)晶體管，其工作電壓最低為0.6V。臺(tái)積電長期以來服務(wù)于智能手機(jī)客戶，專注于低壓操作，而格芯更側(cè)重于PC，直到最近才發(fā)生改變，因此其在這方面的進(jìn)步在很大程度上是彌補(bǔ)差距。

圖3. 高端AI加速器比較。與Nvidia的新產(chǎn)品A100相比，Groq TSP的性能更強(qiáng)勁（以每秒萬億次運(yùn)算或TOPS衡量），而功耗卻更低。Tenstorrent的性能目標(biāo)較低，但功效（每瓦TOPS）是A100的三倍。（數(shù)據(jù)來源：供應(yīng)商）

12LP+的其余優(yōu)勢來自于該技術(shù)專為AI設(shè)計(jì)的SRAM和MAC單元。這種方法反映了晶圓廠的差異化：臺(tái)積電必須服務(wù)于廣泛的客戶，而格芯可以專注于特定的新興工作負(fù)載。AI市場尤其成果豐碩，因?yàn)橛刑嗟墓荆ㄌ貏e是初創(chuàng)公司）在開發(fā)CNN加速器。大型客戶通常會(huì)自行設(shè)計(jì)緩存和MAC單元，但格芯的設(shè)計(jì)對于希望將開發(fā)成本降至最低而專注于獨(dú)特架構(gòu)的初創(chuàng)公司很有用。

更長期問題是，在沒有7nm及更小線寬技術(shù)的路線圖的情況下，格芯能否保持競爭力。臺(tái)積電的5nm技術(shù)正在量產(chǎn)中，客戶已經(jīng)啟動(dòng)未來節(jié)點(diǎn)的設(shè)計(jì)。這些先進(jìn)的工藝使設(shè)計(jì)師能夠?qū)⒏啻鎯?chǔ)器和MAC單元放入芯片中。市場份額最大的大型公司將繼續(xù)沿這條路走下去。面向AI市場的小型公司則會(huì)發(fā)現(xiàn)12LP+更實(shí)惠，而且可以使用小芯片來經(jīng)濟(jì)高效地提高晶體管數(shù)量。Groq和Tenstorrent通過格芯的12LP技術(shù)實(shí)現(xiàn)了領(lǐng)先的AI性能，12LP+中的AI增強(qiáng)功能將使新技術(shù)更加卓越。

本文地址：http://m.qingdxww.cn/thread-600374-1-1.html 【打印本頁】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)；文章版權(quán)歸原作者及原出處所有，如涉及作品內(nèi)容、版權(quán)和其它問題，我們將根據(jù)著作權(quán)人的要求，第一時(shí)間更正或刪除。

網(wǎng)友評論

貿(mào)澤電子有獎(jiǎng)問答視頻，答對領(lǐng)10元微信紅包

国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

格芯贏得AI芯片業(yè)務(wù)

相關(guān)文章

網(wǎng)友評論

廠商推薦

相關(guān)視頻