国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

Google TPU芯片效能超越CPU與GPU?

發(fā)布時間:2017-4-20 10:12    發(fā)布者:eechina
關(guān)鍵詞: TPU , CPU , GPU
來源:eettaiwan

網(wǎng)路巨擘Google日前指出,該公司的Tensor處理器(TPU)在機(jī)器學(xué)習(xí)的測試中,以數(shù)量級的效能優(yōu)勢超越英特爾(Intel)的Xeon處理器和Nvidia的繪圖處理器(GPU)。在一份長達(dá)17頁的報告中,Google深入剖析其TPU和測試基準(zhǔn)顯示比目前的商用芯片更快至少15倍的速度,并提供更高30倍的效能功耗比(P/W)。

去年五月,Google宣布其ASIC設(shè)計是為了加快各種應(yīng)用在其納米中心服務(wù)器的推論作業(yè)。現(xiàn)在,該公司將在今年6月的一場電腦架構(gòu)大會中,透過一篇論文首度公開對于此芯片及其效能的深入研究。

這份報告提供了有關(guān)加速器與Google多元神經(jīng)網(wǎng)路工作負(fù)載的深度觀察,并建議工程師在此快速成長的領(lǐng)域中投注更多的學(xué)習(xí)。

曾帶領(lǐng)超過70位工程師團(tuán)隊設(shè)計TPU 的知名硬件工程師Norman P. Jouppi說:“我們希望聘請一些優(yōu)秀的工程師,并讓他們了解我們正在進(jìn)行高品質(zhì)的工作,同時也讓云端客戶知道我們的實力。”

該計劃的其中一位負(fù)責(zé)人員是美國加州柏克萊大學(xué)(U.C. Berkeley)退休教授David Patterson,他同時也是一位資深的處理器架構(gòu)師,在日前一場矽谷的工程師聚會中介紹了這份報告。Google還在部落格中發(fā)布Jouppi所撰寫關(guān)于此芯片的文章。

如今Google的納米中心仍采用此芯片。不過,關(guān)于該芯片使用的范圍與未來計劃加強的部份,Jouppi并不愿透露任何細(xì)節(jié)。

這款40W功率的TPU是一款采用28納米制程、70MHz時脈運算的芯片,專為加速Google TensorFlow 演算法而設(shè)計。其主要的邏輯單元包含65,536個8位元的乘積累加運算單元和24MB快取存儲器,并提供每秒92兆次運算速度。

在2015年采用Google機(jī)器學(xué)習(xí)芯片而進(jìn)行的測試中,相較于英特爾(Intel)的Haswell服務(wù)器處理器(CPU)和Nvidia的K80繪圖處理器(GPU),采用TPU時的運作速度提高了15到30倍,效能提高了30到80倍。該報告中指出:“TPU的相對增量效能功耗比為41到83——這就是我們?yōu)槭裁纯椭苹疉SIC的原因,它讓TPU比GPU高出25到29倍的的效能功耗比。”

2015年的測試使用了英特爾 22納米制程的18核心Haswell E5-2699 v3 CPU,其時脈頻率(速度)為2.3GHz,熱設(shè)計功耗(TDP)為145W。Nvidia K80 GPU功耗為150W,時脈頻率最高到875MHz。

TPU內(nèi)部揭密

在該報告中提到,TPU所達(dá)到的數(shù)量級效能優(yōu)勢,很少有別的廠商能做到,也可能讓TPU成為特定領(lǐng)域架構(gòu)的原型。預(yù)計接下來將會有許多追隨者,而使得標(biāo)準(zhǔn)更為提高。

事實上,TPU的目標(biāo)不在于提高納米處理量,而是專注于達(dá)到7毫秒(ms)的延遲,使專用加速器發(fā)揮功效,因此,它舍棄了高吞吐量的多工通用處理器所需的許多元件,而用于執(zhí)行其他許多任務(wù)。

但此ASIC芯片在能耗比的表現(xiàn)上不及英特爾和Nvidia的芯片。在10%的負(fù)載狀況下,TPU的最大功率消耗為88%。相形之下,K80在10%負(fù)載下消耗66%的功率,而英特爾Haswell的最大功耗為56%。

Google解釋,這是由于僅15個月的設(shè)計時程相對較短,使得TPU無法加入許多節(jié)能方面的功能。

納米緩沖區(qū)約占TPU的37%,媒體存取控制(MAC)組合占30%。雖然TPU比起Nvidia GPU的尺寸更小、功耗更低,但其上的MAC數(shù)量卻是K80的25倍,芯片上存儲器容量則為其3.5倍。

TPU搭載PCIe Gen3 x16匯流排,并提供256位元的內(nèi)部納米路徑。主機(jī)CPU將加速器視為浮點運算處理器,透過PCIe匯流排傳達(dá)指令。

TPU使用與GPU加速器相同的Tensorflow軟體,開發(fā)人員可維持核心驅(qū)動器的穩(wěn)定,必要時調(diào)整使用者空間的驅(qū)動程式,以因應(yīng)不斷改變的應(yīng)用。

Google發(fā)現(xiàn),持續(xù)增加的存儲器頻寬對于效能表現(xiàn)的影響最大。平均來說,加速時脈速度的效益不大,而當(dāng)MAC擴(kuò)增到512x512矩陣時,加快時脈速度的效能還將微幅下降。

該報告中指出,從2015年的測試以來,英特爾已經(jīng)推出14納米CPU,Nvidia也推出16納米GPU了。然而,TPU也可能將其外部DDR3存儲器升級到像K80所使用的GDDR5存儲器。

報告中指出:“未來的CPU與GPU在執(zhí)行推論時將會更快速。采用2015版GPU存儲器而重新設(shè)計的TPU將會提高兩倍到三倍的速度,而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

Google宣稱在英特爾CPU上執(zhí)行8位元運算相當(dāng)辛苦。報告中提到:“我們原本只有一款CPU執(zhí)行8位元運算的結(jié)果,因為有效地使用其AVX2整數(shù)運算指令,效果提升了3.5倍。”

由于其采用納米處理量為導(dǎo)向的架構(gòu),即使是改良過的GPU要達(dá)到Google的 7nm延遲目標(biāo),仍然充滿挑戰(zhàn)。同時,“這款TPU仍有很大的改進(jìn)空間,所以這不是一個容易達(dá)成的目標(biāo)。”

開發(fā)人員掌握多元化訊息

該報告中提到,研究人員受到熱門的ImageNet比賽吸引,已經(jīng)變得過于投入卷積神經(jīng)網(wǎng)路(CNN)。現(xiàn)實世界的應(yīng)用采用更廣泛的神經(jīng)網(wǎng)路類型,報告并強調(diào),多層感知(MLP)占Google AI開發(fā)工作的61%。“雖然大部份的架構(gòu)師一直在加速CNN設(shè)計,但這部份只占5%的工作負(fù)載。”

“雖然CNN可能很常見于邊緣裝置,但卷積模型的數(shù)量還趕不上納米中心的多層感知(MLP)和長短期存儲器(LSTM)。我們希望架構(gòu)師盡可能地加速MLP和LSTM設(shè)計,這種情況類似于當(dāng)許多架構(gòu)師專注于浮點運算效能時,大部份的主流工作負(fù)載仍由整數(shù)運算主導(dǎo)。”

Jouppi說:“我們已經(jīng)開始與一些大學(xué)合作,擴(kuò)大提供免費模式。”但他并未透露內(nèi)容細(xì)節(jié)。

這篇報告回顧了二十多年來神經(jīng)網(wǎng)路的相關(guān)納米,包括其競爭對手——微軟(Microsoft)基于FPGA的Catapult計劃,加速了網(wǎng)路作業(yè)。最初的25W Catapult在200MHz時脈上運作3,926個18位元MAC,并且以200MHz 時脈速度執(zhí)行5MB存儲器。Google表示,以Verilog語言設(shè)計的韌體比起使用TensorFlow軟體來說效率更低。

TPU計劃于2013年開始,當(dāng)時并以FPGA進(jìn)行了試驗。該報告中提到:“我們舍棄FPGA,因為我們當(dāng)時發(fā)現(xiàn)它和GPU相比,在效能上不具競爭力,而TPU比起GPU在相同速度或甚至更快的速度下,可以達(dá)到更低的功耗。”

盡管二十多年來,神經(jīng)網(wǎng)路終于在最近從商用市場起飛了。

Jouppi說:“我們所有人都被這蓬勃發(fā)展的景象嚇到了,當(dāng)初并未預(yù)期到會有如此大的影響力。一直到五、六年以前,我都還一直抱持懷疑態(tài)度…而今訂單開始逐月增加中。”

相較于傳統(tǒng)途徑,深度神經(jīng)網(wǎng)路(DNN)已經(jīng)讓語音辨識的錯誤率降低了30%,這是二十年來最大的進(jìn)步。這讓ImageNet影像辨識競賽中的錯誤率從2011年的26%降至3.5%。

該報告結(jié)論還提到,“神經(jīng)網(wǎng)路加速器存在的理由在于效能,而在其演進(jìn)過程中,如何達(dá)到良好的直覺判斷,目前還為時過早。”

本文地址:http://m.qingdxww.cn/thread-361508-1-1.html     【打印本頁】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé);文章版權(quán)歸原作者及原出處所有,如涉及作品內(nèi)容、版權(quán)和其它問題,我們將根據(jù)著作權(quán)人的要求,第一時間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

廠商推薦

  • Microchip視頻專區(qū)
  • Dev Tool Bits——使用MPLAB® Discover瀏覽資源
  • Dev Tool Bits——使用條件軟件斷點宏來節(jié)省時間和空間
  • Dev Tool Bits——使用DVRT協(xié)議查看項目中的數(shù)據(jù)
  • Dev Tool Bits——使用MPLAB® Data Visualizer進(jìn)行功率監(jiān)視
  • 貿(mào)澤電子(Mouser)專區(qū)

相關(guān)視頻

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權(quán)所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復(fù) 返回頂部 返回列表
主站蜘蛛池模板: 欧美天堂在线观看 | 亚洲国产日韩在线人成蜜芽 | 四虎在线免费 | 向日葵的免费观看地址 | 麻豆精品一区二区三区免费 | 最新国产毛片 | 免费精品国产自产拍观看 | 国产韩国在线 | 亚洲国产精品久久婷婷 | 国产新疆成人a一片在线观看 | 久久亚洲精中文字幕冲田杏梨 | 狠狠色综合色综合网站久久 | 丝袜美腿视频一区二区三区 | 午夜丁香婷婷 | www.日本黄 | 亚洲天堂男人 | 好男人是视频社区在线 | 亚洲麻豆精品 | 亚洲永久精品一区二区三区 | 日韩国产有码在线观看视频 | 思思99精品国产自在现线 | 精品一久久香蕉国产线看播放 | 久久精品资源 | 国产福利小视频在线播放观看 | 国产精品手机视频一区二区 | 亚洲男人的天堂在线 | 卡一卡二卡三免费专区2 | 四虎影视国产永久免费 | 久久国产精品99精品国产987 | 久久综合精品国产一区二区三区无 | 亚洲精品日本高清中文字幕 | 在线www 天堂网在线 | 欧洲一卡2卡三卡4卡免费网站 | 亚洲欧洲在线视频 | 99日韩 | 亚洲女人18毛片水真多 | 亚洲欧美日韩在线观看二区 | 日韩免费一级片 | 九九视频在线免费观看 | 开心激情五月婷婷 | 亚洲一区二区免费看 |