來源:量子位(ID:QbitAI) 英偉達(dá)的新殺器又來了。 剛剛,在GTC 2018大會(huì)上,黃仁勛發(fā)布全球最大GPU。 他說的是DGX-2。 DGX-2能夠?qū)崿F(xiàn)每秒2千萬億次浮點(diǎn)運(yùn)算(2 PFLOPS),性能比去年9月推出的DGX-1性能提高了10倍,售價(jià)39.9萬美元(人民幣250萬元)。 這次的GTC 2018大會(huì)在美國加州圣何塞舉行,黃仁勛照例身著皮衣登臺(tái)演講。(官方還特別提示:這次是一件全新的皮衣) 而老黃這次的演講主題,是四個(gè)Amazing:amazing graphics、amazing science、amazing AI、amazing robots。 首先,從不可思議的圖像開始。 在這個(gè)環(huán)節(jié)里,黃仁勛介紹了英偉達(dá)在圖像實(shí)時(shí)光線追蹤處理方面的最新進(jìn)展,展示了細(xì)膩的反射效果。 這項(xiàng)技術(shù),稱為RTX。它面向圖形領(lǐng)域,借助深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)了實(shí)時(shí)光線追蹤。 然后黃仁勛發(fā)布了首款基于Volta架構(gòu)的工作站GPU:Quadro GV100。 它支持英偉達(dá)RTX技術(shù),支持NVLink 2,32GB容量HBM2顯存。兩個(gè)GV100相連,可以提供10000多個(gè)CUDA核心,236 teraflops的TensorFlow核心。 說著說著,老黃又開始講這句:買得越多,省得越多。(The more GPUs to buy, the more money you save。) “來GTC,學(xué)習(xí)如何節(jié)省百萬美元!崩宵S發(fā)出誠懇的建議。 然后進(jìn)入不可思議的科學(xué)環(huán)節(jié)。 我們正處在GPU計(jì)算的關(guān)鍵點(diǎn),黃仁勛表示。這部分他還介紹TESLA V100等產(chǎn)品的多快好省,也談到一些GPU在計(jì)算和醫(yī)療影像方面的貢獻(xiàn)。 比如醫(yī)療影像超級(jí)計(jì)算機(jī)CLARA。 深度學(xué)習(xí)給醫(yī)療影響的識(shí)別帶來了諸多變革,但投入到實(shí)際使用中卻很難。醫(yī)院用著十幾年前生產(chǎn)的超聲儀,黑白渣畫質(zhì)成了醫(yī)療進(jìn)步的阻礙。 要等所有醫(yī)院升級(jí)設(shè)備,可能要花上30年。 CLARA是一款醫(yī)療影像的超級(jí)計(jì)算機(jī),讓醫(yī)院可以升級(jí)那些已有的系統(tǒng)。醫(yī)生可以仍然用原有的超聲、CT等設(shè)備,然后將圖像輸入超級(jí)計(jì)算機(jī),推理出更清晰的圖像。 在這個(gè)項(xiàng)目上,英偉達(dá)聯(lián)合了一大群醫(yī)療行業(yè)的合作伙伴: 以及在這個(gè)環(huán)節(jié),黃仁勛又引導(dǎo)全場(chǎng)跟他念:買得越多,省得越多。 來到不可思議的AI環(huán)節(jié)。 這個(gè)環(huán)節(jié)的主題是“全球最大的GPU”。 首先,英偉達(dá)把Volta V100m每張卡的內(nèi)存擴(kuò)大到32GB。適用于內(nèi)存密集型的深度學(xué)習(xí)和高性能計(jì)算,還能將內(nèi)存受限的HPC應(yīng)用性能提升高達(dá)50%。 其次,是全新發(fā)布的互聯(lián)結(jié)構(gòu)NVSwitch,帶寬比最好的PCIe交換機(jī)高出5倍,最高支持16個(gè)Tesla V100同時(shí)以2.4TB/秒的速度進(jìn)行通信。 最后,一個(gè)全新的DGX服務(wù)器發(fā)布了。 黃仁勛說這個(gè)現(xiàn)在是全球最大的GPU了:新的DGX-2,包括20億個(gè)晶體管,12個(gè)交換機(jī)。每個(gè)GPU都可以通過光纖交換機(jī)互相通信,比PCIe接口快20倍。 DGX-2的算力可達(dá)2千萬億次浮點(diǎn)運(yùn)算,功耗10千瓦。這臺(tái)機(jī)器內(nèi)部是NVLink連接的兩組Tesla V100陣列。 與6個(gè)月前發(fā)布的DGX-1相比,DGX-2提速10倍。 五年前,在兩塊GTX 580上進(jìn)行Alexnet訓(xùn)練耗時(shí)六天,現(xiàn)在使用DGX-2,可以在18分鐘以內(nèi)完成。 這款產(chǎn)品將于今年三季度發(fā)售,每臺(tái)價(jià)格39.9萬美元(人民幣250萬元)。 DGX-2具有300臺(tái)服務(wù)器的深度學(xué)習(xí)處理能力,占用15個(gè)數(shù)據(jù)中心機(jī)架空間,而體積則縮小60倍,能效提升18倍。 此外,英偉達(dá)還更新了CUDA、TensorRT、NCCL、cuDNN等深度學(xué)習(xí)和HPC軟件堆棧。 新版的TensorRT能快速優(yōu)化、驗(yàn)證和部署在超大規(guī)模的數(shù)據(jù)中心,針對(duì)更廣泛的應(yīng)用加速深度學(xué)習(xí)推理。它最高可以 將深度學(xué)習(xí)推理的速度加快190倍,降低70%的數(shù)據(jù)中心成本。 TensorRT 4還集成到了谷歌TensorFlow 1.7版本中,更易于使用。 另外,NVIDIA還宣布和ARM合作,將英偉達(dá)深度學(xué)習(xí)加速器架構(gòu)集成到Arm的Project Trillium上,在手機(jī)、智能家居等設(shè)備上實(shí)現(xiàn)深度學(xué)習(xí)推理。 以及英偉達(dá)GPU現(xiàn)在支持Kubernetes了。這是一個(gè)基于容器技術(shù)的分布式架構(gòu)方案。這個(gè)技術(shù)讓英偉達(dá)的GPU進(jìn)一步加速。 還有一事,英偉達(dá)驕傲的宣布,TITAN V仍然斷貨中。 最后是不可思議的機(jī)器人環(huán)節(jié)。 發(fā)布了機(jī)器人開發(fā)工具包Issac SDK之后,話題轉(zhuǎn)向了自動(dòng)駕駛。 “我們正試圖從頭到尾了解這個(gè)系統(tǒng),這其中包含四個(gè)最重要的方面:數(shù)據(jù)收集、模型訓(xùn)練、模擬和駕駛。”老黃說,這個(gè)了解過程,大約花了5到7年。 老黃在現(xiàn)場(chǎng),又展示了一把云代駕。 他把VR和自動(dòng)駕駛結(jié)合起來。通過一個(gè)VR眼鏡和方向盤,就能啟動(dòng)自動(dòng)駕駛汽車。 云代駕所用的平臺(tái),是新鮮發(fā)布的NVIDIA DRIVETM Constellation,基于兩臺(tái)服務(wù)器。 第一臺(tái)服務(wù)器運(yùn)行NVIDIA DRIVE Sim 軟件,用以模擬自動(dòng)駕駛汽車的傳感器,如攝像頭、激光雷達(dá)和雷達(dá)。第二臺(tái)服務(wù)器搭載NVIDIA DRIVE PegasusTM AI汽車計(jì)算平臺(tái),可運(yùn)行完整的自動(dòng)駕駛汽車軟件堆棧,并能夠處理模擬數(shù)據(jù),這些模擬數(shù)據(jù)如同來自路面行駛汽車上的傳感器。 老黃又詳細(xì)介紹了英偉達(dá)的感知基礎(chǔ)架構(gòu)。 每輛汽車都在收集PB級(jí)的數(shù)據(jù),每個(gè)月有1500人大概標(biāo)注100萬件物品。 老黃表示,英偉達(dá)并沒有試圖建立一個(gè)基于軟件定義的計(jì)算機(jī)的自主車輛系統(tǒng),確切的說是在研究一個(gè)架構(gòu)。 英偉達(dá)以Drive PX Parker單芯片架構(gòu)為基礎(chǔ)創(chuàng)建DRIVE Xavier。這是一個(gè)四芯片系統(tǒng),包含兩個(gè)Xaviers和兩個(gè)Voltas。 這臺(tái)耗能300瓦的電腦正在用于機(jī)器人汽車,將于今年晚些時(shí)候投入生產(chǎn)。 對(duì)了,這項(xiàng)技術(shù)英偉達(dá)擁有全部產(chǎn)權(quán)。 BTW,英偉達(dá)今天還宣布暫停了自動(dòng)駕駛測(cè)試。 可能是受此影響,發(fā)布會(huì)一開始,英偉達(dá)股價(jià)就同步下跌,至發(fā)布會(huì)結(jié)束,英偉達(dá)股價(jià)累積下跌6.64%。 |