來源:半導(dǎo)體行業(yè)觀察 一、 2023年存算一體行業(yè)盤點(diǎn) 在過去的2023一年中,AI行業(yè)飛速發(fā)展,對(duì)硬件算力的需求也呈爆炸式增長(zhǎng),特別是生成式大模型的火熱,SOTA模型的參數(shù)規(guī)模提升了幾個(gè)數(shù)量級(jí)。一方面,可預(yù)見的模型參數(shù)量增長(zhǎng)需要更大規(guī)模的片上算力,在存內(nèi)計(jì)算技術(shù)應(yīng)用中即意味著更大規(guī)模的存算陣列以及更多的宏單元堆疊;另一方面,復(fù)雜網(wǎng)絡(luò)的推理或訓(xùn)練需要存算陣列能夠支持更高精度的計(jì)算類型,例如INT16、FP16、FP32等數(shù)據(jù)類型的乘累加計(jì)算。 對(duì)于存算宏單元的設(shè)計(jì),從過去一年中存算領(lǐng)域的高水平會(huì)議/期刊論文發(fā)表情況來看,數(shù)字域的高精度存內(nèi)計(jì)算依然是主流,數(shù)字域計(jì)算極高的信噪比與魯棒性使高精度的乘累加計(jì)算成為可能,在更低的芯片制程下,數(shù)字域存算宏單元也能達(dá)到很高的面積效率與計(jì)算吞吐。而另一方面,越來越多以存算宏單元為乘累加引擎構(gòu)建的微架構(gòu)/片上系統(tǒng)的出現(xiàn)是大勢(shì)所趨,隨著模型參數(shù)量的急劇增長(zhǎng),難以在片上實(shí)現(xiàn)參數(shù)的全靜態(tài)處理,因而不得不將包括了大容量的片外存儲(chǔ)(DDR)在內(nèi)的存儲(chǔ)器層級(jí)(Memory Hierarchy)納入系統(tǒng)設(shè)計(jì)的考慮范疇,一些基于高帶寬存儲(chǔ)器(HBM)的存內(nèi)處理體系的出現(xiàn)很好地印證了這一點(diǎn)。此外,在對(duì)功耗和性能要求嚴(yán)苛的邊緣側(cè),以ReRAM和MRAM為代表的非易失性存儲(chǔ)器存內(nèi)/近存計(jì)算架構(gòu)能夠?qū)崿F(xiàn)極低的待機(jī)功耗,有望在邊緣端實(shí)現(xiàn)高能效/高安全性的網(wǎng)絡(luò)推理乃至模型微調(diào)。 (一)存算一體學(xué)術(shù)界重點(diǎn)事件盤點(diǎn) 1. ISSCC2023會(huì)議于2月19日召開 1.1 AMD 董事長(zhǎng)兼首席執(zhí)行官蘇姿豐在會(huì)上表示,到目前為止,實(shí)現(xiàn)計(jì)算能力持續(xù)復(fù)合增長(zhǎng)的最大限制因素是能效,以加速下一代高性能計(jì)算所需的能效創(chuàng)新,并最終實(shí)現(xiàn) zettascale級(jí)別的性能。要完全應(yīng)對(duì)這一挑戰(zhàn),就需要通過擴(kuò)展特定領(lǐng)域的架構(gòu)來加速核心算法,在從晶體管到軟件系統(tǒng)各個(gè)方面大規(guī)模部署人工智能。 7.4 臺(tái)積電(TSMC)基于4nm FinFET 工藝開發(fā)了一款數(shù)字域存內(nèi)計(jì)算宏單元(DCIM),通過降低陣列利用率,即部分使能陣列的方式,重構(gòu)了存儲(chǔ)的權(quán)重(Weight)的位寬(8b/12b),輸入特征值(Input Feature)以比特串行(Bit-Serial)的方式輸入宏單元,在乘累加后處理模塊處實(shí)現(xiàn)了8/12/16b的位寬重構(gòu),以此來支持更高精度的整型矩陣向量乘計(jì)算。此外,該設(shè)計(jì)采用雙8T+NOR門的比特單元設(shè)計(jì)以支持運(yùn)算和更新的同時(shí)進(jìn)行(PingPong設(shè)計(jì))。臺(tái)積電的研究人員還根據(jù)運(yùn)算時(shí)流水線的延時(shí)余量設(shè)計(jì)了混合閾值電壓的晶體管分布,在SRAM陣列和加法樹前級(jí)采用高閾值電壓晶體管以降低漏電,在后級(jí)加法樹采用低閾值電壓晶體管以降低延時(shí),平衡了宏單元的整體功耗與延時(shí)。最終在先進(jìn)工藝和設(shè)計(jì)技巧加持下,宏單元達(dá)到了6163-TOPS/W/b(~96TOPS/W for INT8)的能效以及4790TOPS/mm2/b(~75TOPS/mm2 for INT8)的算力密度。 7.1 & 7.2 臺(tái)灣清華大學(xué)(NTHU)和東南大學(xué)(SEU)分別提出了兩套基于SRAM-CIM的存內(nèi)實(shí)現(xiàn)浮點(diǎn)計(jì)算的方案,NTHU的研究人員將進(jìn)行乘累加計(jì)算的權(quán)重指數(shù)(Exponent)和特征值指數(shù)相加,在時(shí)域中完成一批數(shù)據(jù)(128組)的移位對(duì)指,根據(jù)對(duì)指結(jié)果對(duì)特征值尾數(shù)(Mantissa)進(jìn)行移位后再與權(quán)重尾數(shù)在電荷-數(shù)字混合域進(jìn)行整型的乘累加計(jì)算,而SEU的研究人員將權(quán)重?cái)?shù)據(jù)和特征值數(shù)據(jù)分開對(duì)指,對(duì)指移位完成后的權(quán)重?cái)?shù)據(jù)存儲(chǔ)在SRAM陣列中,對(duì)指移位完成后的特征值數(shù)據(jù)再以2bit串行的方式輸入到宏單元中在數(shù)字域完成尾數(shù)的乘累加計(jì)算。 值得一提的是,NTHU的工作以數(shù)模混合的方式平衡了整體的能量/面積效率與計(jì)算準(zhǔn)確度,而SEU的工作利用近似數(shù)字計(jì)算的方式同樣在能效/面效與準(zhǔn)確度中做出了權(quán)衡(tradeoff)。兩個(gè)宏單元支持的浮點(diǎn)數(shù)據(jù)類型不約而同地都選擇了Google在TPUv3上提出支持的浮點(diǎn)數(shù)類型BF16,BF16擁有比FP16更大的數(shù)值空間,計(jì)算時(shí)不易溢出,其8bit的尾數(shù)位寬對(duì)于存算宏單元支持BF16/INT8的重構(gòu)也十分友好。最終NTHU的宏單元(22nm)實(shí)現(xiàn)了16.22~17.59的TFLOPS/W的能效,在90%的輸入稀疏性下能夠達(dá)到70.21 TFLOPS/W的峰值能效,而SEU的宏單元(28nm)達(dá)到了14.04~31.6 TFLOPS/W的浮點(diǎn)能效以及19.5~44 TOPS/W的整型(INT8)計(jì)算能效。 16.1 & 16.2 清華大學(xué)(THU)和復(fù)旦大學(xué)(FDU)分別提出了兩款支持Transformer類型網(wǎng)絡(luò)的加速器,均以整型的SRAM-CIM宏單元為乘累加引擎,THU的加速器支持多模態(tài)Transformer,利用注意力計(jì)算的稀疏性對(duì)計(jì)算token進(jìn)行實(shí)時(shí)剪枝,宏單元利用數(shù)據(jù)的比特稀疏性提高計(jì)算能效最終達(dá)到了48.4~101.1的INT8系統(tǒng)能效以及12.1~60.3的INT16系統(tǒng)能效,F(xiàn)DU的工作同樣利用了數(shù)據(jù)稀疏性,使用蝶形數(shù)據(jù)壓縮電路跳過塊狀(block-wise)的零數(shù)據(jù),提升了系統(tǒng)運(yùn)算性能,最終達(dá)到了25.22的INT8系統(tǒng)能效。 16.4 中科院微電子所(IMCAS)和清華大學(xué)(THU)共同發(fā)表的支持浮點(diǎn)計(jì)算的存算加速器工作提出了另一種實(shí)現(xiàn)高精度浮點(diǎn)計(jì)算的思路,該工作利用了神經(jīng)網(wǎng)絡(luò)計(jì)算的數(shù)據(jù)分布特征,將大的離群數(shù)值與其他數(shù)據(jù)分開計(jì)算,大的離群數(shù)值總量小,但對(duì)計(jì)算結(jié)果影響大,這部分被分配到數(shù)字邏輯中進(jìn)行無精度損失的計(jì)算,而其他的總量大,數(shù)值相對(duì)小的數(shù)據(jù)被送往存算宏單元中完成乘累加計(jì)算,忍受并行計(jì)算的對(duì)指移位帶來的截?cái)嗑葥p失。架構(gòu)整體還對(duì)比特串行計(jì)算的稀疏性以及離群值的稀疏性做細(xì)致的加速,達(dá)到了17.2~91.3的系統(tǒng)浮點(diǎn)能效(FP16的數(shù)據(jù)類型)。 33.2 & 33.4 & 16.6 臺(tái)灣清華(NTHU)&臺(tái)積電(TSMC)團(tuán)隊(duì)以及東南大學(xué)(SEU)團(tuán)隊(duì)分別發(fā)表了兩款基于MRAM的近存/存內(nèi)計(jì)算宏單元(33.2、33.4)。NTHU&TSMC團(tuán)隊(duì)在22nm工藝下實(shí)現(xiàn)了一款8Mb大小支持4/8b近存計(jì)算宏單元,在部署ResNet20網(wǎng)絡(luò)時(shí)能夠達(dá)到160.1TOPS/W的峰值能效(@90%輸入稀疏度),而SEU團(tuán)隊(duì)在70nm下驗(yàn)證了一款2Mb大小支持單比特存內(nèi)計(jì)算的MRAM宏單元,為改善傳統(tǒng)1T1M比特單元的讀寫性能,該團(tuán)隊(duì)創(chuàng)新性地提出了偽2T2M的比特單元,最終在0.85V供電電壓下測(cè)得能效標(biāo)準(zhǔn)值41.5TOPS/W. 此外,NTHU&TSMC團(tuán)隊(duì)在28nm工藝下實(shí)現(xiàn)了一款基于ReRAM存內(nèi)計(jì)算的邊緣端處理器(16.6),該處理器擯棄傳統(tǒng)的片外非易失性存儲(chǔ)+片上邏輯計(jì)算的架構(gòu),利用片上4MByte的ReRAM存內(nèi)計(jì)算宏單元實(shí)現(xiàn)了極低功耗的休眠-啟動(dòng)的邊緣端場(chǎng)景應(yīng)用。該加速器支持1~8比特的計(jì)算精度,在0.8V供電電壓,INT8部署MobileNetv2網(wǎng)絡(luò)的工作條件下測(cè)得芯片整體能效可達(dá)51.4TOPS/W. 2. 2023年9月14日,清華大學(xué)(THU)團(tuán)隊(duì)在Science雜志上發(fā)表首顆實(shí)現(xiàn)片上訓(xùn)練的ReRAM存算一體芯片.其將所有的網(wǎng)絡(luò)參數(shù)部署在片上的ReRAM陣列,利用推理結(jié)果的符號(hào)位對(duì)憶阻器單元的電導(dǎo)進(jìn)行調(diào)制,完成誤差的反向傳播,進(jìn)而完成網(wǎng)絡(luò)的片上訓(xùn)練,論文展示了芯片在小車循跡、手寫數(shù)字識(shí)別、語音識(shí)別等任務(wù)上優(yōu)秀的學(xué)習(xí)能力和推理精度。 (二) 產(chǎn)業(yè)界重點(diǎn)事件盤點(diǎn) 1. 后摩智能5月發(fā)布首款基于存算一體架構(gòu)大算力智駕芯片后摩鴻途®️H30 后摩鴻途®️H30基于 SRAM 存儲(chǔ)介質(zhì),采用數(shù)字存算一體架構(gòu),擁有極低的訪存功耗和超高的計(jì)算密度,在 Int8 數(shù)據(jù)精度條件下,其 AI 核心IPU 能效比高達(dá) 15Tops/W,是傳統(tǒng)架構(gòu)芯片的7 倍以上。 得益于存算一體的架構(gòu)優(yōu)勢(shì),H30 基于 12nm 工藝制程,在 Int8 數(shù)據(jù)精度下實(shí)現(xiàn)高達(dá) 256TOPS 的物理算力,所需功耗不超過35W,整個(gè) SoC 能效比達(dá)到了 7.3Tops/W,具有高計(jì)算效率、低計(jì)算延時(shí)以及低工藝依賴等特點(diǎn)。 2. 特斯拉DOJO 量產(chǎn)開始 2021年,特斯拉在AI DAY上公布的AI訓(xùn)練芯片“D1”及超級(jí)計(jì)算平臺(tái)dojo架構(gòu)細(xì)節(jié)。2023 年 7 月,特斯拉官方稱Dojo 的量產(chǎn)已經(jīng)正式開始。D1 采用臺(tái)積電7nm工藝制造,核心面積達(dá)645平方毫米,僅次于NVIDIA Ampere架構(gòu)的超級(jí)計(jì)算核心A100(826平方毫米)、AMD CDNA2架構(gòu)的下代計(jì)算核心Arcturus(750平方毫米左右),集成了多達(dá)500億個(gè)晶體管,相當(dāng)于Intel剛剛發(fā)布的具有高達(dá)1000億顆晶體管的Ponte Vecchio計(jì)算芯片的一半,內(nèi)部走線,長(zhǎng)度超過11英里,也就是大約18公里。 據(jù)特斯拉介紹,其D1芯片集成了四個(gè)64位超標(biāo)量CPU核心,擁有多達(dá)354個(gè)訓(xùn)練節(jié)點(diǎn),特別用于8×8乘法,支持FP32、BFP64、CFP8、INT16、INT8等各種數(shù)據(jù)指令格式,都是AI訓(xùn)練相關(guān)的。 特斯拉稱,D1芯片的FP32單精度浮點(diǎn)計(jì)算性能達(dá)22.6TFlops(每秒22.6萬億次),BF16/CFP8計(jì)算性能則可達(dá)362TFlops(每秒362萬億次)。為了支撐AI訓(xùn)練的擴(kuò)展性,它的互連帶寬非常驚人,最高可達(dá)10TB/s,由多達(dá)576個(gè)通道組成,每個(gè)通道的帶寬都有112Gbps。實(shí)現(xiàn)這一切熱設(shè)計(jì)功耗為400W。 Tesla Dojo處理器采用數(shù)據(jù)流近存計(jì)算架構(gòu),通過大量更快更近的片上存儲(chǔ)和片上存儲(chǔ)之間的流轉(zhuǎn)減少對(duì)內(nèi)存的訪問頻度,提升系統(tǒng)性能,算力達(dá)362TFLOPS@FP16,每個(gè)D1芯片放置440MB SRAM,解決內(nèi)存墻問題。 美國(guó)紐約州州長(zhǎng)Kathy Hochul在今年1月26日舉行的新聞發(fā)布會(huì)上表示,特斯拉將投資5億美元,在該州的布法。 羅市(Buffalo)建造一臺(tái)“Dojo”超級(jí)計(jì)算機(jī)。 3. 后摩智能點(diǎn)亮首款RRAM大容量存儲(chǔ)芯片并完成測(cè)試驗(yàn)證 后摩智能完成首款可商用的RRAM測(cè)試及應(yīng)用場(chǎng)景開發(fā),探測(cè)及證實(shí)了現(xiàn)有工業(yè)級(jí)的RRAM的技術(shù)邊界。后續(xù)將與車規(guī)級(jí)應(yīng)用場(chǎng)景結(jié)合,希望與伙伴共同打造新興存儲(chǔ)及新型存算計(jì)算范式,賦能客戶。 目前,后摩智能該款RRAM芯片能夠滿足在高質(zhì)量/高安全性要求的商用場(chǎng)景,更新版本可以實(shí)現(xiàn)對(duì)車規(guī)級(jí)應(yīng)用的支持,尤其是車載娛樂系統(tǒng)、部分低等級(jí)車規(guī)要求,在工業(yè)電子類/消費(fèi)電子類,其功能/性能能滿足對(duì)eFlash場(chǎng)景的替代,甚至能夠改變?cè)杏?jì)算架構(gòu),對(duì)只讀/少讀場(chǎng)景有較大的革命優(yōu)勢(shì),尤其在亞22nm工藝之后,有望能夠進(jìn)一步成為高端芯片的嵌入式存儲(chǔ)器使用。 在功耗性能方面,其整體功耗低至60mW,支持power down模式,支持不同區(qū)域分別關(guān)斷功能,支持sleep模式等,可以進(jìn)一步在不同應(yīng)用場(chǎng)景進(jìn)行功耗控制。 4. 2023年9月,硅谷AI芯片初創(chuàng)公司D-Matrix獲得1.1億美元的B輪融資 領(lǐng)投方為新加坡頂尖投資公司淡馬錫(Temasek),微軟和三星等科技巨頭跟投。D-Matrix采用SRAM存算一體+Chiplet技術(shù)來構(gòu)建針對(duì)大模型的計(jì)算芯片。 D-Matrix的新融資將用來打造其數(shù)字內(nèi)存計(jì)算 (DIMC) Chiplet推理計(jì)算卡Corsair,據(jù)稱推理速度是英偉達(dá)H100 GPU的9倍,如果是計(jì)算卡集群,與英偉達(dá)的類似解決方案相比,功率效率提高20倍,延遲降低20倍,成本降低高達(dá)30倍。 每塊Corsair計(jì)算卡擁有8個(gè)Jayhawk II Chiplet,每個(gè)Jayhawk II提供2Tb/s(250GB/s)的芯片到芯片帶寬,單塊Corsair計(jì)算卡就擁有8Tb/s(1TB/s)的聚合芯片到芯片帶寬。但是這一套硬件將在2024年才能正式投入使用。 5. 三星電子在Hot Chips 2023上公布了高帶寬存儲(chǔ)器(HBM)-內(nèi)存處理(PIM)和低功耗雙倍數(shù)據(jù)速率 (LPDDR)-PIM研究成果。這兩款存儲(chǔ)器是未來可用于人工智能(AI)行業(yè)的下一代存儲(chǔ)器。近年來,隨著內(nèi)存瓶頸成為AI半導(dǎo)體領(lǐng)域的一大挑戰(zhàn),HBM-PIM作為下一代內(nèi)存半導(dǎo)體備受矚目。 三星電子展示了一項(xiàng)研究成果,將HBM-PIM應(yīng)用于生成式AI,與現(xiàn)有HBM相比,加速器性能和功效提高了一倍以上。研究中使用的GPU是AMD的MI-100。為了驗(yàn)證MoE模型,還構(gòu)建了 HBM-PIM 集群。集群中使用了 96 臺(tái)配備 HBM-PIM 的 MI-100。在MoE模型中,HBM-PIM還表明加速器性能比HBM高兩倍,功率效率比HBM高三倍。 除了HBM-PIM,三星電子還展示了LPDDR-PIM。LPDDR-PIM 是一種將 PIM 與移動(dòng) DRAM 相結(jié)合的形式,可直接在邊緣設(shè)備內(nèi)處理計(jì)算。由于它是針對(duì)邊緣設(shè)備開發(fā)的產(chǎn)品,因此帶寬(102.4GB/s)也較低。三星電子強(qiáng)調(diào),與DRAM相比,功耗可降低72%。 二、2024年存算一體(Compute-In-Memory)技術(shù)方向前瞻 1.頂層架構(gòu)設(shè)計(jì)加速存內(nèi)計(jì)算技術(shù)應(yīng)用落地 目前,在電路宏單元層面,不論是基于SRAM或DRAM的存內(nèi)高性能計(jì)算還是基于新型非易失存儲(chǔ)器的極低功耗存內(nèi)計(jì)算,在存儲(chǔ)陣列內(nèi)設(shè)計(jì)計(jì)算單元以實(shí)現(xiàn)較大規(guī)模數(shù)據(jù)并行計(jì)算的方式已被驗(yàn)證具有很高的計(jì)算能效與算力密度,但是,想要將存算技術(shù)真正落地,與存內(nèi)計(jì)算電路宏單元配套的頂層架構(gòu)設(shè)計(jì)以及配套的軟件編譯必不可少,尤其是針對(duì)較大規(guī)模網(wǎng)絡(luò)在整個(gè)片上系統(tǒng)的部署,因而展望2024,有關(guān)存算一體技術(shù)的架構(gòu)探索與加速器設(shè)計(jì)仍將持續(xù)火熱; 2. 高精度可重構(gòu)的存算宏單元設(shè)計(jì),向著通用計(jì)算場(chǎng)景進(jìn)發(fā) 目前,面對(duì)愈來愈復(fù)雜多變的網(wǎng)絡(luò)推理任務(wù),網(wǎng)絡(luò)模型對(duì)于硬件支持的計(jì)算精度要求也在不斷提高,以往的宏單元支持的INT8整型計(jì)算能夠較好地完成CNN等網(wǎng)絡(luò)的部署,而類Transformer網(wǎng)絡(luò)往往要求INT16甚至更高的數(shù)據(jù)精度,另一方面,較大規(guī)模的網(wǎng)絡(luò)參數(shù)以及多變的網(wǎng)絡(luò)類型對(duì)存算宏單元的靈活性提出要求,因而支持高精度、可重構(gòu)的存算宏單元,邁向著更通用的應(yīng)用場(chǎng)景; 3. 先進(jìn)封裝/新型工藝助力存算一體實(shí)現(xiàn)極致的系統(tǒng)性能 一方面,2.5D/3D/3.5D等先進(jìn)封裝技術(shù)快速發(fā)展,高帶寬存儲(chǔ)器(HBM)、混合鍵合(Hybrid Bonding)、芯粒(Chiplet)等先進(jìn)互連技術(shù)將實(shí)現(xiàn)更高速的片間互連,這也會(huì)給設(shè)計(jì)大算力的存內(nèi)計(jì)算系統(tǒng)帶來機(jī)遇;另一方面,基于新型非易失性存儲(chǔ)器的存內(nèi)計(jì)算將賦能更低功耗的邊緣端網(wǎng)絡(luò)推理,新型器件例如FeRAM、CFET等有待演化出更先進(jìn)的存儲(chǔ)&計(jì)算一體電路。 |