顯然,這不是一臺普通的電腦,這是中國首臺自主研發(fā)CPU和底層系統(tǒng)的千萬億次超級計算機神威藍光。10月13日,帶著幾分好奇,電腦報記者來到濟南超級計算機中心,第一次了解到神威藍光的諸多細節(jié),也見到了與這臺國產(chǎn)超級計算機朝夕相處的一群科學家。 擁有為14萬3千枚16核CPU; 存儲容量高達2PB(1PB等于100萬GB) 最高帶寬達到69.6TB/s(1TB等于1000GB); 每秒峰值運算達1.07千萬億次,相當于20萬臺普通筆記本同時運算能力; …… 走進超級計算機的心臟 沒有想象中巨大,神威藍光就是一個放大的“0”躺在機房里,走進它,如果不是旁邊一排商業(yè)服務器的噪聲提醒,從外面封閉的外殼難以察覺它的運行。 國家超級計算濟南中心陳德訓研究員像魔法師為記者打開了三扇門。 第一扇“0”型頭部的一扇門,映入記者眼簾的是晶瑩透明、手指粗細的水管,有序地排列在兩排機架上,與地板下的制冷系統(tǒng)相連,用手摸一下這些水管,都是冰涼的感覺。 第二扇門打開,是配列整齊的CPU,每排8顆CPU,128個核,一個機架上是一萬億次的計算能力。 第三扇門打開的時候,就是一個空的橢圓形小房間,“這里有什么寶貝?” “進來吧,感受一下安靜。”陳德訓邀請記者走進藍光超級計算機的內(nèi)部,“環(huán)形墻”原來是9個計算機倉和2個網(wǎng)絡機倉,除了網(wǎng)絡連線上的指示燈閃爍,這里簡直可以當著是靜修的空間。 “這就是神威藍光的主機部分”,總工程師周明忠研究員說包含14萬3千個核的主機只占用60平米的機房,與其龐大的計算能力相比,確實是小巧玲瓏。 神威藍光從2011年9月整個系統(tǒng)安裝加電測試以來,一直就是保持24小時的開機運行狀態(tài)。 “關鍵是主機的CPU和底層軟件系統(tǒng)全部是國內(nèi)自主研發(fā)生產(chǎn)的,使中國成為繼美國、日本之后,世界上第三個具有獨立研發(fā)千萬億次超級計算機的能力的國家。”陳德訓和所有研究員都倍感自豪。 最神秘的神威藍光的CPU,是全球第一顆16核CPU,比AMD的要早6個月,并行操作系統(tǒng)、虛擬機管理器、多核編譯器、并行編譯器、海量并行文件系統(tǒng)、多核數(shù)學庫則是自主研發(fā)的軟件成果。 此時是10月13日中午12:08,從主機房外監(jiān)控室的屏幕上,看到此刻正忙著的CPU是7760個,系統(tǒng)為正在運行的項目配置了8704顆CPU,屏幕上綠色顯示閑著的CPU主要分布在第3號機倉。 “正在運行的是什么計算?” “我們并不清楚每個計算項目的具體運行內(nèi)容,監(jiān)控主要是看機器性能配置,發(fā)現(xiàn)有問題會及時自動處理。” “通常一次運算要多少時間?” “一天的計算時間是最短的項目,項目一周左右的計算時間比較普遍。” “怎么知道在這里跑的運算項目沒有暗藏惡意代碼?” “運行前有一套安全檢測程序會保證機器安全”研究員對記者的疑問一一耐心解答。 超級計算應用每一天 還有什么比超級計算機的應用最接近人們的生活?每天我們要看的天氣預報就是最廣泛的應用。 “如果需要,我們可以推算1000年后的氣候情況。”周總工說,人類自1850年有天氣記錄以后,就產(chǎn)生了一些列氣象數(shù)據(jù),專家們可以根據(jù)歷史數(shù)據(jù)建立數(shù)學模型,推演過去1000年或者未來1000年的天氣變化。 現(xiàn)在天氣預報的數(shù)據(jù)實際上是每小時都會有一個新的計算結果,氣象部門還要參考其他氣象因素,然后才定時播報。 類似的應用還有海洋數(shù)據(jù)分析,可以了解海底地貌幾千年前的形狀,其他的成熟應用還有石油勘探、金融分析、農(nóng)業(yè)上基因育種篩選、動漫產(chǎn)業(yè)等等。 濟南超算中心的定位在為黃河三角洲及半島經(jīng)濟服務上,全國一半以上海洋研究機構都在山東省,為海洋數(shù)據(jù)研究服務就是濟南超算的主要任務。 不過,這些應用的軟件大都是國際上共享的軟件,國內(nèi)在應用上的研發(fā)缺失讓濟南超算中心研發(fā)部總經(jīng)理潘景山感到一絲遺憾。 據(jù)介紹,目前國內(nèi)僅有的四大超算中心,包括在建的長沙中心,天津、深圳中心都是采用GPU為主的異構架構,只有濟南超算中心是國產(chǎn)CPU和底層軟件系統(tǒng),機器成本比采用國外處理器和系統(tǒng)的成本低,但研發(fā)成本遠比采用國外產(chǎn)品的大。 “僅Cpu的研發(fā)就是十幾年時間,我們在硬件上與國外產(chǎn)品水平相當,但在應用軟件上,差距在30年以上” 應用軟件的開發(fā)不是一個簡單的過程,需要計算專家、行業(yè)專家共同參與,一個項目的開發(fā)需要200人年左右,投入使用年限都在20至30年。 “美國三大實驗室,有幾千人在應用領域研發(fā),計算機專業(yè)的只百人團隊。”潘景山對比國外在超算應用領域的重視,看到濟南超算中心的40位員工,很有壓力。 國外在超算系統(tǒng)與應用的開發(fā)投入上1:2 或者是1:3的比例,國內(nèi)在軟件應用上投入的人力資金僅有硬件系統(tǒng)的1/5。“大型軟件,像海洋、氣象這類,70年代的代碼、90年代的代碼都可以找到,是長期積累下來的東西,海洋、氣象軟件可以免費使用,但還有好多領域需要自行研發(fā),我們現(xiàn)在是有大量數(shù)據(jù),缺計算軟件這樣的工具,眼看著數(shù)據(jù)不能挖掘出智慧。” 從神威藍光運行以來,很多個周六潘景山就是和同事們一起在超算中心加班度過的,記者在周六的采訪也是他們眾多工作日的普通一天。 瘋狂博士帶你看超級計算機 相信各位讀者都曾經(jīng)看到中國某某超級計算機又勇奪世界排名多少位之類的新聞,對“天河”、“銀河”、“神威藍光”等等關鍵詞記憶猶新。 不過在我們的想象中,對超級計算機的認識卻僅僅停留在“運算能力比普通電腦強很多”這個層面上。 到底超級計算機是個什么樣子?它的各部分硬件和普通電腦有什么不同?其實包括瘋狂博士自己也想把它弄個明白。10月13日,瘋狂博士親自深入國家超級計算濟南中心,為大家揭開超級計算機神秘的面紗! 超算機房看究竟(1) 超算機房看究竟(2) 走進神威藍光超級計算機的機房,可以看到很多立式的機柜,在機房正中間擺成一圈的機柜正是神威藍光,旁邊排成一行的是常規(guī)的X86架構服務器機柜(從前面的機房布局圖也能看出來)。 瘋狂博士也見過不少大型機房,不過神威藍光給我的最大印象就是非常安靜!和旁邊發(fā)出巨大噪音的X86服務器形成了鮮明的對比。 經(jīng)工程師介紹,神威藍光全部采用水冷設計,一是比風冷省電,二是幾乎零噪音(這個我們后面詳細介紹)。 工程師打開機柜,一層層的刀片機引入眼簾。經(jīng)工程師介紹,每一片上有兩顆處理器,每顆處理器有16個物理核心,每顆處理器配備了16GB DDR3內(nèi)存。 瘋狂博士發(fā)現(xiàn)刀片機上有三個電源開關,原來每一片都配備了三個獨立的電源,就算有一個壞掉,另兩個也能及時補上,大大保證了服務器的可靠性和穩(wěn)定性(三個一起壞?這幾率太太太小了)。 從機柜背后可以看到,各個節(jié)點之間是用光纖進行連接的,這樣才能保證足夠的數(shù)據(jù)帶寬;而刀片機之間是直接用PCB連接的,數(shù)據(jù)帶寬更高。 那么千兆網(wǎng)線這樣顯得比較“慢”的網(wǎng)絡連接是用來做什么的呢?其實是用來連接監(jiān)控單元的,監(jiān)控對于數(shù)據(jù)帶寬要求很低,所以一般的網(wǎng)絡就行了。 超頻用水冷?超算也用水冷! 一提到水冷散熱系統(tǒng),恐怕大家最先想到的就是發(fā)燒玩家玩超頻的必備神器了。 其實,神威藍光超級計算機也是采用的水冷散熱系統(tǒng),而且這也是它最有特色的設計之一。 首先,這套給超級計算機使用的水冷系統(tǒng)非常安靜,基本上可以算是零噪音了; 其次,它非常節(jié)能,遠比常規(guī)的散熱系統(tǒng)省電得多,畢竟只需要驅動功率不算大的水泵,而且在冬天,濟南的室外溫度很低,冷卻水在室外實現(xiàn)自然冷卻,散熱效率更高; 再次,這套水冷散熱系統(tǒng)的運營成本也很低,一年的冷卻水損耗率才30%(其他超級計算機采用的水冷系統(tǒng)蒸發(fā)量遠高于它)。 超算拆開給你看! 這里需要說明一下,和我國其他幾個超級計算機中心所用的CPU+GPU方案不同的是,神威藍光采用的是完全自主開發(fā)的純CPU方案。 其中申威SW1600C采用的架構與X86、ARM完全不同,采用自己的編譯器和軟件,具備16個物理核心(一般臺式機上最多才8核),頻率為1GHz,每顆CPU搭配16GB DDR3 1066內(nèi)存。 看到這里可能玩家有疑問,怎么才1GHz?現(xiàn)在臺式機的處理器默認頻率都快破4GHz了。其實不能這么比較,申威SW1600C的架構不同于X86和 ARM(X86和ARM兼容的軟件無法直接在它上面運行,因此擁有很好的安全性),而且針對的數(shù)據(jù)與應用也不同于一般臺式機,所以不能單純從頻率來衡量。 另外,從結構圖上也可以看到,申威SW1600C內(nèi)部有4個核心組,也就是說每個核心組包含了4個物理核心,由交叉開關來進行動態(tài)調(diào)節(jié)計算負載。 再來看看一個計算單元的主板,兩顆采用BGA封裝的申威SW1600C直接焊接在主板上面,周圍是DDR3內(nèi)存顆粒,每顆CPU分配了16GB內(nèi)存。 瘋狂博士仔細觀察了一下主板上的供電電路,一共是11+1相供電,相當于高端Z77等主板的供電規(guī)格, 看來申威SW1600C的功耗應該和普通臺式機處理器差不多! 稿源:電腦報 |