來(lái)源:半導(dǎo)體行業(yè)觀察 Loihi,這個(gè)名字可能在普通消費(fèi)者的耳中并不熟悉,但對(duì)于半導(dǎo)體領(lǐng)域來(lái)說(shuō),卻并不陌生。神經(jīng)擬態(tài)計(jì)算是一種借鑒神經(jīng)科學(xué)研究的全新計(jì)算方法,通過(guò)存算一體和高細(xì)粒度的并行計(jì)算,大幅減少了數(shù)據(jù)傳輸。而Loihi芯片正是英特爾神經(jīng)擬態(tài)計(jì)算芯片的代表。 回顧英特爾的神經(jīng)擬態(tài)計(jì)算之路:2017年,英特爾研究院推出了一款神經(jīng)擬態(tài)芯片Loihi 1,2020年推出基于Loihi 1的Pohoiki Springs。2021年英特爾研究院推出了第二代Loihi芯片,而就在前不久,英特爾首發(fā)大型神經(jīng)擬態(tài)系統(tǒng)Hala Point,基于Loihi 2,神經(jīng)元數(shù)量達(dá)到11.5億。 ![]() Hala Point在主流AI工作負(fù)載上展現(xiàn)了出色的計(jì)算效率。研究顯示,在運(yùn)行傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)時(shí),該系統(tǒng)能夠每秒完成多達(dá)2萬(wàn)萬(wàn)億次(20 petaops)運(yùn)算,8位運(yùn)算能效比達(dá)到了15 TOPS/W,相當(dāng)于甚至超過(guò)了基于GPU和CPU的架構(gòu)。 無(wú)論是從研究、系統(tǒng)到應(yīng)用的各個(gè)角度,Loihi項(xiàng)目持續(xù)向前推進(jìn),展現(xiàn)出了令人鼓舞的發(fā)展態(tài)勢(shì)。 Hala Point:英特爾迄今為止最先進(jìn)的神經(jīng)擬態(tài)系統(tǒng) 關(guān)于神經(jīng)擬態(tài)類(lèi)芯片,想必大家都會(huì)覺(jué)得很神秘。近日,英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)在一次媒體溝通會(huì)上,詳細(xì)解釋了Loihi芯片背后的技術(shù)原理以及最新的研究進(jìn)展。 宋繼強(qiáng)指出,Loihi芯片的主要特點(diǎn)在于,它內(nèi)部蘊(yùn)含著一個(gè)最小的計(jì)算單元,這個(gè)單元模擬了生物大腦神經(jīng)元的結(jié)構(gòu)和運(yùn)作方式。Loihi芯片中可能包含多個(gè)這樣的單元,每一個(gè)最小的計(jì)算單元就是由計(jì)算邏輯和對(duì)應(yīng)的存儲(chǔ)構(gòu)成的,所以它是一個(gè)存算一體化的芯片。 因此,Loihi內(nèi)部確實(shí)包含了承載神經(jīng)元胞體能力的組織,具備計(jì)算和存儲(chǔ)邏輯,并模擬了神經(jīng)元的輸入輸出過(guò)程。簡(jiǎn)單來(lái)說(shuō),神經(jīng)元的輸入通過(guò)軸突實(shí)現(xiàn),而輸出則通過(guò)樹(shù)突完成。神經(jīng)元胞體的樹(shù)突能夠連接到其他神經(jīng)元的軸突,形成一個(gè)網(wǎng)絡(luò),從而實(shí)現(xiàn)神經(jīng)元之間的相互連接。 Loihi 1芯片所采用的是英特爾14納米的制程,2020年發(fā)布的基于Loihi 1芯片的Pohoiki Springs,大約是5U的規(guī)模,含有768個(gè)Loihi 1代的芯片。Pohoiki Springs系統(tǒng)里有接近1億個(gè)神經(jīng)元。作為對(duì)比,人腦共有860億個(gè)神經(jīng)元,也就是說(shuō),Pohoiki Springs相當(dāng)于1/800大腦的神經(jīng)元。 最新發(fā)布的Hala Point,尺寸比原來(lái)的Pohoiki Springs稍大一些,從5U增加到了6U,這個(gè)增幅并不大,但是在神經(jīng)元數(shù)量上,卻實(shí)現(xiàn)了11倍的增長(zhǎng),從1億增加到了11.5億。從尺寸來(lái)講,這個(gè)系統(tǒng)與烤箱或者是行李箱尺寸相當(dāng),它的神經(jīng)元規(guī)模已經(jīng)達(dá)到人腦的1/80了。也就是說(shuō)80個(gè)Hala Point堆在一起,就相當(dāng)于人腦規(guī)模的神經(jīng)擬態(tài)計(jì)算集群。 此外,Hala Point芯片升級(jí)為L(zhǎng)oihi 2,Hala Point內(nèi)部共有1152個(gè)Loihi 2的芯片,此外還包括140544個(gè)神經(jīng)處理內(nèi)核,2304個(gè)x86內(nèi)核,用于調(diào)度和配置任務(wù)。相較于Loihi一代,在密度、計(jì)算能力、速度以及互連特性等方面都實(shí)現(xiàn)了顯著提升。Loihi 2采用的是Intel 4制程技術(shù),從英特爾14納米制程節(jié)點(diǎn)升級(jí)至Intel 4,光是制程上,就使得芯片內(nèi)部的晶體管密度和能效比都得到了顯著提升。 了解神經(jīng)擬態(tài)計(jì)算 神經(jīng)擬態(tài)計(jì)算系統(tǒng)的最大優(yōu)勢(shì)的具有非常高的能效比,比如,最新的Hala Point神經(jīng)擬態(tài)如此大規(guī)模的系統(tǒng)集群功耗僅為15TOP/S,這主要主要源于兩個(gè)方面: 首先,它實(shí)現(xiàn)了存算一體化,因此避免了傳統(tǒng)的核內(nèi)外架構(gòu)在處理大量數(shù)據(jù)傳輸時(shí)的能量損耗。 其次,它采用了異步電路設(shè)計(jì),摒棄了中央時(shí)鐘。宋院長(zhǎng)進(jìn)一步指出,神經(jīng)擬態(tài)計(jì)算沒(méi)有同步時(shí)鐘概念,就像我們?nèi)四X,不是以一個(gè)很高的頻率在工作,要不然就會(huì) “燒腦”了。雖然這可能有些難以理解,因?yàn)橄馛PU、GPU或一些ASIC設(shè)計(jì)都是有一個(gè)同步的時(shí)鐘來(lái)驅(qū)動(dòng)的。一旦時(shí)鐘啟動(dòng),所有電路、內(nèi)存等都在運(yùn)行,耗電量很大,雖然可以根據(jù)情況進(jìn)行一些選通,但大部分電路仍在耗電。然而,神經(jīng)擬態(tài)計(jì)算系統(tǒng)采用的是異步事件驅(qū)動(dòng)方式,即只有當(dāng)事件走過(guò)特定路徑時(shí),該路徑才耗電,而其他路徑則處于休眠狀態(tài)。 盡管擁有如此龐大的集群,但神經(jīng)擬態(tài)計(jì)算系統(tǒng)在工作時(shí)只進(jìn)行少量局部并行計(jì)算,而且突觸之間的連接并非硬線連接,而是動(dòng)態(tài)的消息隊(duì)列式連接。這一設(shè)計(jì)既充分利用了突觸的規(guī)模,又避免了占用總線連接,而是通過(guò)高效的消息傳輸隊(duì)列來(lái)實(shí)現(xiàn),從而以非常有效的方式消耗能量。 從所適用的應(yīng)用上來(lái)看,神經(jīng)擬態(tài)計(jì)算適合做的事情是對(duì)整體的能耗有要求,同時(shí)這個(gè)應(yīng)用又對(duì)實(shí)時(shí)性要求很高,從輸入到輸出的一個(gè)延遲是有限制的。 對(duì)于當(dāng)前的計(jì)算處理,尤其是處理AI工作負(fù)載時(shí),如果采用神經(jīng)擬態(tài)計(jì)算,那么能源利用將非常高效。神經(jīng)擬態(tài)計(jì)算系統(tǒng)能夠?qū)⒋蟛糠帜芰坑糜趯?shí)際計(jì)算或數(shù)據(jù)更新,而不是浪費(fèi)在數(shù)據(jù)傳輸上。現(xiàn)在許多人工智能大型模型或其他處理任務(wù)的能耗主要用于數(shù)據(jù)傳輸,即將數(shù)據(jù)從一個(gè)地方傳輸?shù)搅硪粋(gè)地方進(jìn)行處理,因此其中約一半的能耗用于非有效的計(jì)算上。 再比如,“在某些專(zhuān)用的數(shù)據(jù)中心,如果說(shuō)它在做大規(guī)模的優(yōu)化任務(wù),做這種物流調(diào)度,用神經(jīng)擬態(tài)系統(tǒng)會(huì)有比較大規(guī)模的降低。”宋院長(zhǎng)指出。 神經(jīng)擬態(tài)的可塑性就體現(xiàn)在它里面每個(gè)神經(jīng)元和它所謂的突觸連接都是可配置的。當(dāng)你有一個(gè)初始的模型放進(jìn)去之后,在它學(xué)習(xí)的時(shí)候,還可以去改神經(jīng)元里一些可配置的部分,讓它跟著你訓(xùn)練的這些樣本做一些相應(yīng)的調(diào)整。這是為什么我們從Loihi一代就開(kāi)始講,它是一個(gè)可以持續(xù)片上學(xué)習(xí)的硬件,而不是說(shuō)我訓(xùn)練好一個(gè)模型放上去之后,它就只能按照這個(gè)參數(shù)去做推理,這個(gè)是有差別的。因?yàn)樗嵩谏窠?jīng)元級(jí)別下有可配置的地方,包括突觸之間到底是粗還是細(xì),還是把它斷掉,這個(gè)都是可以配置的。 英特爾的神經(jīng)擬態(tài)計(jì)算未來(lái)之路 在推進(jìn)神經(jīng)擬態(tài)計(jì)算方面,據(jù)宋院長(zhǎng)的介紹,英特爾研究院的策略是三管齊下。首先,在硬件方面,持續(xù)推進(jìn)架構(gòu)的優(yōu)化和創(chuàng)新,同時(shí)配合工藝制程的迭代,以獲得更大規(guī)模和更優(yōu)能效比的成果。這種設(shè)計(jì)直接受益于制程節(jié)點(diǎn)的提升,當(dāng)前使用的是Intel 4制程,而未來(lái)可能還會(huì)有Intel 3、Intel 18A等更先進(jìn)的制程,這將進(jìn)一步推動(dòng)神經(jīng)元規(guī)模的增長(zhǎng),有望實(shí)現(xiàn)翻番甚至更多的提升。 第二個(gè)策略是要把軟件打磨得更好。隨著時(shí)間的推移,自從2021年開(kāi)始構(gòu)建軟件堆棧以來(lái),應(yīng)用場(chǎng)景發(fā)生了許多變化,包括人工智能框架。從最初處理視覺(jué)和感知類(lèi)應(yīng)用,到現(xiàn)在需要運(yùn)行更大規(guī)模的模型等,需求日益增加。因此,我們致力于與科研生態(tài)和當(dāng)前應(yīng)用進(jìn)行對(duì)接,不斷改進(jìn)軟件部分。 第三個(gè)策略是繼續(xù)在INRC這樣的全球合作社區(qū)中開(kāi)展各種應(yīng)用。我們期待在某些領(lǐng)域迅速實(shí)現(xiàn)規(guī)模化應(yīng)用。盡管我們的芯片已經(jīng)接近商業(yè)化水平,但在找到大規(guī)模商用產(chǎn)品之前,我們將繼續(xù)將其作為研究院的實(shí)驗(yàn)型芯片,而非商業(yè)產(chǎn)品。 結(jié)語(yǔ) 總的來(lái)說(shuō),Loihi項(xiàng)目的成功標(biāo)志著神經(jīng)擬態(tài)計(jì)算技術(shù)的成熟與發(fā)展。英特爾將繼續(xù)在硬件、軟件和生態(tài)系統(tǒng)建設(shè)方面不斷投入,并期待在更多領(lǐng)域?qū)崿F(xiàn)神經(jīng)擬態(tài)計(jì)算的規(guī)模化應(yīng)用。我們也期待神經(jīng)擬態(tài)計(jì)算能夠在有朝一日找到合適的應(yīng)用場(chǎng)景,真正發(fā)揮出其價(jià)值。 |