顯然,這不是一臺(tái)普通的電腦,這是中國(guó)首臺(tái)自主研發(fā)CPU和底層系統(tǒng)的千萬(wàn)億次超級(jí)計(jì)算機(jī)神威藍(lán)光。10月13日,帶著幾分好奇,電腦報(bào)記者來(lái)到濟(jì)南超級(jí)計(jì)算機(jī)中心,第一次了解到神威藍(lán)光的諸多細(xì)節(jié),也見到了與這臺(tái)國(guó)產(chǎn)超級(jí)計(jì)算機(jī)朝夕相處的一群科學(xué)家。 擁有為14萬(wàn)3千枚16核CPU; 存儲(chǔ)容量高達(dá)2PB(1PB等于100萬(wàn)GB) 最高帶寬達(dá)到69.6TB/s(1TB等于1000GB); 每秒峰值運(yùn)算達(dá)1.07千萬(wàn)億次,相當(dāng)于20萬(wàn)臺(tái)普通筆記本同時(shí)運(yùn)算能力; …… 走進(jìn)超級(jí)計(jì)算機(jī)的心臟 沒有想象中巨大,神威藍(lán)光就是一個(gè)放大的“0”躺在機(jī)房里,走進(jìn)它,如果不是旁邊一排商業(yè)服務(wù)器的噪聲提醒,從外面封閉的外殼難以察覺它的運(yùn)行。 國(guó)家超級(jí)計(jì)算濟(jì)南中心陳德訓(xùn)研究員像魔法師為記者打開了三扇門。 第一扇“0”型頭部的一扇門,映入記者眼簾的是晶瑩透明、手指粗細(xì)的水管,有序地排列在兩排機(jī)架上,與地板下的制冷系統(tǒng)相連,用手摸一下這些水管,都是冰涼的感覺。 第二扇門打開,是配列整齊的CPU,每排8顆CPU,128個(gè)核,一個(gè)機(jī)架上是一萬(wàn)億次的計(jì)算能力。 第三扇門打開的時(shí)候,就是一個(gè)空的橢圓形小房間,“這里有什么寶貝?” “進(jìn)來(lái)吧,感受一下安靜。”陳德訓(xùn)邀請(qǐng)記者走進(jìn)藍(lán)光超級(jí)計(jì)算機(jī)的內(nèi)部,“環(huán)形墻”原來(lái)是9個(gè)計(jì)算機(jī)倉(cāng)和2個(gè)網(wǎng)絡(luò)機(jī)倉(cāng),除了網(wǎng)絡(luò)連線上的指示燈閃爍,這里簡(jiǎn)直可以當(dāng)著是靜修的空間。 “這就是神威藍(lán)光的主機(jī)部分”,總工程師周明忠研究員說(shuō)包含14萬(wàn)3千個(gè)核的主機(jī)只占用60平米的機(jī)房,與其龐大的計(jì)算能力相比,確實(shí)是小巧玲瓏。 神威藍(lán)光從2011年9月整個(gè)系統(tǒng)安裝加電測(cè)試以來(lái),一直就是保持24小時(shí)的開機(jī)運(yùn)行狀態(tài)。 “關(guān)鍵是主機(jī)的CPU和底層軟件系統(tǒng)全部是國(guó)內(nèi)自主研發(fā)生產(chǎn)的,使中國(guó)成為繼美國(guó)、日本之后,世界上第三個(gè)具有獨(dú)立研發(fā)千萬(wàn)億次超級(jí)計(jì)算機(jī)的能力的國(guó)家。”陳德訓(xùn)和所有研究員都倍感自豪。 最神秘的神威藍(lán)光的CPU,是全球第一顆16核CPU,比AMD的要早6個(gè)月,并行操作系統(tǒng)、虛擬機(jī)管理器、多核編譯器、并行編譯器、海量并行文件系統(tǒng)、多核數(shù)學(xué)庫(kù)則是自主研發(fā)的軟件成果。 此時(shí)是10月13日中午12:08,從主機(jī)房外監(jiān)控室的屏幕上,看到此刻正忙著的CPU是7760個(gè),系統(tǒng)為正在運(yùn)行的項(xiàng)目配置了8704顆CPU,屏幕上綠色顯示閑著的CPU主要分布在第3號(hào)機(jī)倉(cāng)。 “正在運(yùn)行的是什么計(jì)算?” “我們并不清楚每個(gè)計(jì)算項(xiàng)目的具體運(yùn)行內(nèi)容,監(jiān)控主要是看機(jī)器性能配置,發(fā)現(xiàn)有問題會(huì)及時(shí)自動(dòng)處理。” “通常一次運(yùn)算要多少時(shí)間?” “一天的計(jì)算時(shí)間是最短的項(xiàng)目,項(xiàng)目一周左右的計(jì)算時(shí)間比較普遍。” “怎么知道在這里跑的運(yùn)算項(xiàng)目沒有暗藏惡意代碼?” “運(yùn)行前有一套安全檢測(cè)程序會(huì)保證機(jī)器安全”研究員對(duì)記者的疑問一一耐心解答。 超級(jí)計(jì)算應(yīng)用每一天 還有什么比超級(jí)計(jì)算機(jī)的應(yīng)用最接近人們的生活?每天我們要看的天氣預(yù)報(bào)就是最廣泛的應(yīng)用。 “如果需要,我們可以推算1000年后的氣候情況。”周總工說(shuō),人類自1850年有天氣記錄以后,就產(chǎn)生了一些列氣象數(shù)據(jù),專家們可以根據(jù)歷史數(shù)據(jù)建立數(shù)學(xué)模型,推演過去1000年或者未來(lái)1000年的天氣變化。 現(xiàn)在天氣預(yù)報(bào)的數(shù)據(jù)實(shí)際上是每小時(shí)都會(huì)有一個(gè)新的計(jì)算結(jié)果,氣象部門還要參考其他氣象因素,然后才定時(shí)播報(bào)。 類似的應(yīng)用還有海洋數(shù)據(jù)分析,可以了解海底地貌幾千年前的形狀,其他的成熟應(yīng)用還有石油勘探、金融分析、農(nóng)業(yè)上基因育種篩選、動(dòng)漫產(chǎn)業(yè)等等。 濟(jì)南超算中心的定位在為黃河三角洲及半島經(jīng)濟(jì)服務(wù)上,全國(guó)一半以上海洋研究機(jī)構(gòu)都在山東省,為海洋數(shù)據(jù)研究服務(wù)就是濟(jì)南超算的主要任務(wù)。 不過,這些應(yīng)用的軟件大都是國(guó)際上共享的軟件,國(guó)內(nèi)在應(yīng)用上的研發(fā)缺失讓濟(jì)南超算中心研發(fā)部總經(jīng)理潘景山感到一絲遺憾。 據(jù)介紹,目前國(guó)內(nèi)僅有的四大超算中心,包括在建的長(zhǎng)沙中心,天津、深圳中心都是采用GPU為主的異構(gòu)架構(gòu),只有濟(jì)南超算中心是國(guó)產(chǎn)CPU和底層軟件系統(tǒng),機(jī)器成本比采用國(guó)外處理器和系統(tǒng)的成本低,但研發(fā)成本遠(yuǎn)比采用國(guó)外產(chǎn)品的大。 “僅Cpu的研發(fā)就是十幾年時(shí)間,我們?cè)谟布吓c國(guó)外產(chǎn)品水平相當(dāng),但在應(yīng)用軟件上,差距在30年以上” 應(yīng)用軟件的開發(fā)不是一個(gè)簡(jiǎn)單的過程,需要計(jì)算專家、行業(yè)專家共同參與,一個(gè)項(xiàng)目的開發(fā)需要200人年左右,投入使用年限都在20至30年。 “美國(guó)三大實(shí)驗(yàn)室,有幾千人在應(yīng)用領(lǐng)域研發(fā),計(jì)算機(jī)專業(yè)的只百人團(tuán)隊(duì)。”潘景山對(duì)比國(guó)外在超算應(yīng)用領(lǐng)域的重視,看到濟(jì)南超算中心的40位員工,很有壓力。 國(guó)外在超算系統(tǒng)與應(yīng)用的開發(fā)投入上1:2 或者是1:3的比例,國(guó)內(nèi)在軟件應(yīng)用上投入的人力資金僅有硬件系統(tǒng)的1/5。“大型軟件,像海洋、氣象這類,70年代的代碼、90年代的代碼都可以找到,是長(zhǎng)期積累下來(lái)的東西,海洋、氣象軟件可以免費(fèi)使用,但還有好多領(lǐng)域需要自行研發(fā),我們現(xiàn)在是有大量數(shù)據(jù),缺計(jì)算軟件這樣的工具,眼看著數(shù)據(jù)不能挖掘出智慧。” 從神威藍(lán)光運(yùn)行以來(lái),很多個(gè)周六潘景山就是和同事們一起在超算中心加班度過的,記者在周六的采訪也是他們眾多工作日的普通一天。 瘋狂博士帶你看超級(jí)計(jì)算機(jī) 相信各位讀者都曾經(jīng)看到中國(guó)某某超級(jí)計(jì)算機(jī)又勇奪世界排名多少位之類的新聞,對(duì)“天河”、“銀河”、“神威藍(lán)光”等等關(guān)鍵詞記憶猶新。 不過在我們的想象中,對(duì)超級(jí)計(jì)算機(jī)的認(rèn)識(shí)卻僅僅停留在“運(yùn)算能力比普通電腦強(qiáng)很多”這個(gè)層面上。 到底超級(jí)計(jì)算機(jī)是個(gè)什么樣子?它的各部分硬件和普通電腦有什么不同?其實(shí)包括瘋狂博士自己也想把它弄個(gè)明白。10月13日,瘋狂博士親自深入國(guó)家超級(jí)計(jì)算濟(jì)南中心,為大家揭開超級(jí)計(jì)算機(jī)神秘的面紗! 超算機(jī)房看究竟(1) 超算機(jī)房看究竟(2) 走進(jìn)神威藍(lán)光超級(jí)計(jì)算機(jī)的機(jī)房,可以看到很多立式的機(jī)柜,在機(jī)房正中間擺成一圈的機(jī)柜正是神威藍(lán)光,旁邊排成一行的是常規(guī)的X86架構(gòu)服務(wù)器機(jī)柜(從前面的機(jī)房布局圖也能看出來(lái))。 瘋狂博士也見過不少大型機(jī)房,不過神威藍(lán)光給我的最大印象就是非常安靜!和旁邊發(fā)出巨大噪音的X86服務(wù)器形成了鮮明的對(duì)比。 經(jīng)工程師介紹,神威藍(lán)光全部采用水冷設(shè)計(jì),一是比風(fēng)冷省電,二是幾乎零噪音(這個(gè)我們后面詳細(xì)介紹)。 工程師打開機(jī)柜,一層層的刀片機(jī)引入眼簾。經(jīng)工程師介紹,每一片上有兩顆處理器,每顆處理器有16個(gè)物理核心,每顆處理器配備了16GB DDR3內(nèi)存。 瘋狂博士發(fā)現(xiàn)刀片機(jī)上有三個(gè)電源開關(guān),原來(lái)每一片都配備了三個(gè)獨(dú)立的電源,就算有一個(gè)壞掉,另兩個(gè)也能及時(shí)補(bǔ)上,大大保證了服務(wù)器的可靠性和穩(wěn)定性(三個(gè)一起壞?這幾率太太太小了)。 從機(jī)柜背后可以看到,各個(gè)節(jié)點(diǎn)之間是用光纖進(jìn)行連接的,這樣才能保證足夠的數(shù)據(jù)帶寬;而刀片機(jī)之間是直接用PCB連接的,數(shù)據(jù)帶寬更高。 那么千兆網(wǎng)線這樣顯得比較“慢”的網(wǎng)絡(luò)連接是用來(lái)做什么的呢?其實(shí)是用來(lái)連接監(jiān)控單元的,監(jiān)控對(duì)于數(shù)據(jù)帶寬要求很低,所以一般的網(wǎng)絡(luò)就行了。 超頻用水冷?超算也用水冷! 一提到水冷散熱系統(tǒng),恐怕大家最先想到的就是發(fā)燒玩家玩超頻的必備神器了。 其實(shí),神威藍(lán)光超級(jí)計(jì)算機(jī)也是采用的水冷散熱系統(tǒng),而且這也是它最有特色的設(shè)計(jì)之一。 首先,這套給超級(jí)計(jì)算機(jī)使用的水冷系統(tǒng)非常安靜,基本上可以算是零噪音了; 其次,它非常節(jié)能,遠(yuǎn)比常規(guī)的散熱系統(tǒng)省電得多,畢竟只需要驅(qū)動(dòng)功率不算大的水泵,而且在冬天,濟(jì)南的室外溫度很低,冷卻水在室外實(shí)現(xiàn)自然冷卻,散熱效率更高; 再次,這套水冷散熱系統(tǒng)的運(yùn)營(yíng)成本也很低,一年的冷卻水損耗率才30%(其他超級(jí)計(jì)算機(jī)采用的水冷系統(tǒng)蒸發(fā)量遠(yuǎn)高于它)。 超算拆開給你看! 這里需要說(shuō)明一下,和我國(guó)其他幾個(gè)超級(jí)計(jì)算機(jī)中心所用的CPU+GPU方案不同的是,神威藍(lán)光采用的是完全自主開發(fā)的純CPU方案。 其中申威SW1600C采用的架構(gòu)與X86、ARM完全不同,采用自己的編譯器和軟件,具備16個(gè)物理核心(一般臺(tái)式機(jī)上最多才8核),頻率為1GHz,每顆CPU搭配16GB DDR3 1066內(nèi)存。 看到這里可能玩家有疑問,怎么才1GHz?現(xiàn)在臺(tái)式機(jī)的處理器默認(rèn)頻率都快破4GHz了。其實(shí)不能這么比較,申威SW1600C的架構(gòu)不同于X86和 ARM(X86和ARM兼容的軟件無(wú)法直接在它上面運(yùn)行,因此擁有很好的安全性),而且針對(duì)的數(shù)據(jù)與應(yīng)用也不同于一般臺(tái)式機(jī),所以不能單純從頻率來(lái)衡量。 另外,從結(jié)構(gòu)圖上也可以看到,申威SW1600C內(nèi)部有4個(gè)核心組,也就是說(shuō)每個(gè)核心組包含了4個(gè)物理核心,由交叉開關(guān)來(lái)進(jìn)行動(dòng)態(tài)調(diào)節(jié)計(jì)算負(fù)載。 再來(lái)看看一個(gè)計(jì)算單元的主板,兩顆采用BGA封裝的申威SW1600C直接焊接在主板上面,周圍是DDR3內(nèi)存顆粒,每顆CPU分配了16GB內(nèi)存。 瘋狂博士仔細(xì)觀察了一下主板上的供電電路,一共是11+1相供電,相當(dāng)于高端Z77等主板的供電規(guī)格, 看來(lái)申威SW1600C的功耗應(yīng)該和普通臺(tái)式機(jī)處理器差不多! 稿源:電腦報(bào) |