來源:半導體行業(yè)觀察 Loihi,這個名字可能在普通消費者的耳中并不熟悉,但對于半導體領(lǐng)域來說,卻并不陌生。神經(jīng)擬態(tài)計算是一種借鑒神經(jīng)科學研究的全新計算方法,通過存算一體和高細粒度的并行計算,大幅減少了數(shù)據(jù)傳輸。而Loihi芯片正是英特爾神經(jīng)擬態(tài)計算芯片的代表。 回顧英特爾的神經(jīng)擬態(tài)計算之路:2017年,英特爾研究院推出了一款神經(jīng)擬態(tài)芯片Loihi 1,2020年推出基于Loihi 1的Pohoiki Springs。2021年英特爾研究院推出了第二代Loihi芯片,而就在前不久,英特爾首發(fā)大型神經(jīng)擬態(tài)系統(tǒng)Hala Point,基于Loihi 2,神經(jīng)元數(shù)量達到11.5億。 ![]() Hala Point在主流AI工作負載上展現(xiàn)了出色的計算效率。研究顯示,在運行傳統(tǒng)深度神經(jīng)網(wǎng)絡時,該系統(tǒng)能夠每秒完成多達2萬萬億次(20 petaops)運算,8位運算能效比達到了15 TOPS/W,相當于甚至超過了基于GPU和CPU的架構(gòu)。 無論是從研究、系統(tǒng)到應用的各個角度,Loihi項目持續(xù)向前推進,展現(xiàn)出了令人鼓舞的發(fā)展態(tài)勢。 Hala Point:英特爾迄今為止最先進的神經(jīng)擬態(tài)系統(tǒng) 關(guān)于神經(jīng)擬態(tài)類芯片,想必大家都會覺得很神秘。近日,英特爾研究院副總裁、英特爾中國研究院院長宋繼強在一次媒體溝通會上,詳細解釋了Loihi芯片背后的技術(shù)原理以及最新的研究進展。 宋繼強指出,Loihi芯片的主要特點在于,它內(nèi)部蘊含著一個最小的計算單元,這個單元模擬了生物大腦神經(jīng)元的結(jié)構(gòu)和運作方式。Loihi芯片中可能包含多個這樣的單元,每一個最小的計算單元就是由計算邏輯和對應的存儲構(gòu)成的,所以它是一個存算一體化的芯片。 因此,Loihi內(nèi)部確實包含了承載神經(jīng)元胞體能力的組織,具備計算和存儲邏輯,并模擬了神經(jīng)元的輸入輸出過程。簡單來說,神經(jīng)元的輸入通過軸突實現(xiàn),而輸出則通過樹突完成。神經(jīng)元胞體的樹突能夠連接到其他神經(jīng)元的軸突,形成一個網(wǎng)絡,從而實現(xiàn)神經(jīng)元之間的相互連接。 Loihi 1芯片所采用的是英特爾14納米的制程,2020年發(fā)布的基于Loihi 1芯片的Pohoiki Springs,大約是5U的規(guī)模,含有768個Loihi 1代的芯片。Pohoiki Springs系統(tǒng)里有接近1億個神經(jīng)元。作為對比,人腦共有860億個神經(jīng)元,也就是說,Pohoiki Springs相當于1/800大腦的神經(jīng)元。 最新發(fā)布的Hala Point,尺寸比原來的Pohoiki Springs稍大一些,從5U增加到了6U,這個增幅并不大,但是在神經(jīng)元數(shù)量上,卻實現(xiàn)了11倍的增長,從1億增加到了11.5億。從尺寸來講,這個系統(tǒng)與烤箱或者是行李箱尺寸相當,它的神經(jīng)元規(guī)模已經(jīng)達到人腦的1/80了。也就是說80個Hala Point堆在一起,就相當于人腦規(guī)模的神經(jīng)擬態(tài)計算集群。 此外,Hala Point芯片升級為Loihi 2,Hala Point內(nèi)部共有1152個Loihi 2的芯片,此外還包括140544個神經(jīng)處理內(nèi)核,2304個x86內(nèi)核,用于調(diào)度和配置任務。相較于Loihi一代,在密度、計算能力、速度以及互連特性等方面都實現(xiàn)了顯著提升。Loihi 2采用的是Intel 4制程技術(shù),從英特爾14納米制程節(jié)點升級至Intel 4,光是制程上,就使得芯片內(nèi)部的晶體管密度和能效比都得到了顯著提升。 了解神經(jīng)擬態(tài)計算 神經(jīng)擬態(tài)計算系統(tǒng)的最大優(yōu)勢的具有非常高的能效比,比如,最新的Hala Point神經(jīng)擬態(tài)如此大規(guī)模的系統(tǒng)集群功耗僅為15TOP/S,這主要主要源于兩個方面: 首先,它實現(xiàn)了存算一體化,因此避免了傳統(tǒng)的核內(nèi)外架構(gòu)在處理大量數(shù)據(jù)傳輸時的能量損耗。 其次,它采用了異步電路設計,摒棄了中央時鐘。宋院長進一步指出,神經(jīng)擬態(tài)計算沒有同步時鐘概念,就像我們?nèi)四X,不是以一個很高的頻率在工作,要不然就會 “燒腦”了。雖然這可能有些難以理解,因為像CPU、GPU或一些ASIC設計都是有一個同步的時鐘來驅(qū)動的。一旦時鐘啟動,所有電路、內(nèi)存等都在運行,耗電量很大,雖然可以根據(jù)情況進行一些選通,但大部分電路仍在耗電。然而,神經(jīng)擬態(tài)計算系統(tǒng)采用的是異步事件驅(qū)動方式,即只有當事件走過特定路徑時,該路徑才耗電,而其他路徑則處于休眠狀態(tài)。 盡管擁有如此龐大的集群,但神經(jīng)擬態(tài)計算系統(tǒng)在工作時只進行少量局部并行計算,而且突觸之間的連接并非硬線連接,而是動態(tài)的消息隊列式連接。這一設計既充分利用了突觸的規(guī)模,又避免了占用總線連接,而是通過高效的消息傳輸隊列來實現(xiàn),從而以非常有效的方式消耗能量。 從所適用的應用上來看,神經(jīng)擬態(tài)計算適合做的事情是對整體的能耗有要求,同時這個應用又對實時性要求很高,從輸入到輸出的一個延遲是有限制的。 對于當前的計算處理,尤其是處理AI工作負載時,如果采用神經(jīng)擬態(tài)計算,那么能源利用將非常高效。神經(jīng)擬態(tài)計算系統(tǒng)能夠?qū)⒋蟛糠帜芰坑糜趯嶋H計算或數(shù)據(jù)更新,而不是浪費在數(shù)據(jù)傳輸上。現(xiàn)在許多人工智能大型模型或其他處理任務的能耗主要用于數(shù)據(jù)傳輸,即將數(shù)據(jù)從一個地方傳輸?shù)搅硪粋地方進行處理,因此其中約一半的能耗用于非有效的計算上。 再比如,“在某些專用的數(shù)據(jù)中心,如果說它在做大規(guī)模的優(yōu)化任務,做這種物流調(diào)度,用神經(jīng)擬態(tài)系統(tǒng)會有比較大規(guī)模的降低。”宋院長指出。 神經(jīng)擬態(tài)的可塑性就體現(xiàn)在它里面每個神經(jīng)元和它所謂的突觸連接都是可配置的。當你有一個初始的模型放進去之后,在它學習的時候,還可以去改神經(jīng)元里一些可配置的部分,讓它跟著你訓練的這些樣本做一些相應的調(diào)整。這是為什么我們從Loihi一代就開始講,它是一個可以持續(xù)片上學習的硬件,而不是說我訓練好一個模型放上去之后,它就只能按照這個參數(shù)去做推理,這個是有差別的。因為它提在神經(jīng)元級別下有可配置的地方,包括突觸之間到底是粗還是細,還是把它斷掉,這個都是可以配置的。 英特爾的神經(jīng)擬態(tài)計算未來之路 在推進神經(jīng)擬態(tài)計算方面,據(jù)宋院長的介紹,英特爾研究院的策略是三管齊下。首先,在硬件方面,持續(xù)推進架構(gòu)的優(yōu)化和創(chuàng)新,同時配合工藝制程的迭代,以獲得更大規(guī)模和更優(yōu)能效比的成果。這種設計直接受益于制程節(jié)點的提升,當前使用的是Intel 4制程,而未來可能還會有Intel 3、Intel 18A等更先進的制程,這將進一步推動神經(jīng)元規(guī)模的增長,有望實現(xiàn)翻番甚至更多的提升。 第二個策略是要把軟件打磨得更好。隨著時間的推移,自從2021年開始構(gòu)建軟件堆棧以來,應用場景發(fā)生了許多變化,包括人工智能框架。從最初處理視覺和感知類應用,到現(xiàn)在需要運行更大規(guī)模的模型等,需求日益增加。因此,我們致力于與科研生態(tài)和當前應用進行對接,不斷改進軟件部分。 第三個策略是繼續(xù)在INRC這樣的全球合作社區(qū)中開展各種應用。我們期待在某些領(lǐng)域迅速實現(xiàn)規(guī)模化應用。盡管我們的芯片已經(jīng)接近商業(yè)化水平,但在找到大規(guī)模商用產(chǎn)品之前,我們將繼續(xù)將其作為研究院的實驗型芯片,而非商業(yè)產(chǎn)品。 結(jié)語 總的來說,Loihi項目的成功標志著神經(jīng)擬態(tài)計算技術(shù)的成熟與發(fā)展。英特爾將繼續(xù)在硬件、軟件和生態(tài)系統(tǒng)建設方面不斷投入,并期待在更多領(lǐng)域?qū)崿F(xiàn)神經(jīng)擬態(tài)計算的規(guī)模化應用。我們也期待神經(jīng)擬態(tài)計算能夠在有朝一日找到合適的應用場景,真正發(fā)揮出其價值。 |