国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

人工智能引發(fā)能源問題,我們該怎么辦?(二)

發(fā)布時間:2020-2-21 16:38    發(fā)布者:eechina
關鍵詞: 人工智能 , 能源
來源:貿(mào)澤電子

上一篇文章中,我們簡要介紹了更高層次的問題,這些問題為優(yōu)化加速器的需求奠定了基礎。作為一個尖銳的問題提醒,現(xiàn)在讓我們通過一個非常簡單的圖像分類算法,來看一看與之相關聯(lián)的計算成本與功耗。

利用Mark Horowitz提供的數(shù)據(jù)點,我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到Mark的能耗估計是針對45nm節(jié)點的,但業(yè)界專家建議,這些數(shù)據(jù)點將繼續(xù)按當前的半導體工藝尺寸進行調整。也就是說,無論工藝尺寸是45nm還是16nm,與FP32運算相比,INT8運算的能量成本仍然低一個數(shù)量級。


Cadence 嵌入式神經(jīng)網(wǎng)絡峰會,2017年2月1日
數(shù)據(jù)來源:Bill Dally(斯坦福)

功耗可按以下方式進行計算:

功耗=能量(J)/運算*運算/s

從這個等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執(zhí)行特定運算所需的功耗,要么減少運算的次數(shù),或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個目標。ResNet提供了近乎最先進的圖像分類性能,同時與眾多具有類似性能的可比網(wǎng)絡相比,它所需的參數(shù)(權重)更少,這便是它的另一大優(yōu)勢。

為了部署ResNet50,我們每次推斷必需大約77億運算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產(chǎn)生7.7*10E9的“計算成本”。

現(xiàn)在,讓我們考慮一個相對高容量的推斷應用,在該應用中,我們可能希望每秒對1000幅圖像進行分類。堅持沿用Mark的45nm能量估算,我們得出以下結論:

功耗=4pJ+0.4pJ/運算*7.7B運算/圖像*1000圖像/s=33.88W

作為創(chuàng)新的第一維度,我們可以將網(wǎng)絡FP32量化到8位整數(shù)運算。這將功耗降低了一個數(shù)量級以上。雖然在訓練期間FP32的精度有利于反向傳輸,但它在像素數(shù)據(jù)的推斷時間幾乎沒有創(chuàng)造價值。大量研究和論文已經(jīng)表明,在眾多應用中,可以分析每一層的權重分布并對該分布進行量化,同時將預量化的預測精度保持在非常合理的范圍內(nèi)。

此外,量化研究還表明,8位整數(shù)值對于像素數(shù)據(jù)來說是很好的“通用”解決方案,并且對于典型網(wǎng)絡的許多內(nèi)層,可以將其量化到3-4位,而在預測精度上損失最小。由Michaela Blott領導的賽靈思研究實驗室團隊多年來一直致力于二進制神經(jīng)網(wǎng)絡(BNN)的研究與部署,并取得了一些令人矚目的成果。

如今,我們與DNNDK的重點是將網(wǎng)絡推斷量化至INT8。現(xiàn)代賽靈思FPGA 中的單個DSP片可以在單個時鐘周期內(nèi)計算兩個8位乘法運算,這并非巧合。在16nm UltraScale+MPSoC器件系列中,我們擁有超過15種不同的器件變型,從數(shù)百個DSP片擴展到數(shù)千個DSP片,同時保持應用和/OS兼容性。16nm DSP片的最大fCLK峰值為891MHz。因此,中型MPSoC器件是功能強大的計算加速器。

現(xiàn)在,讓我們考慮一下從FP32遷移到INT8的數(shù)學含義:

功耗=0.2pJ+0.03pJ/運算*7.7B運算/圖像*1000圖像/s=1.771W

Mark在演講中,提出了一個解決計算效率問題的方法,那就是使用專門構建的專用加速器。他的觀點適用于機器學習推斷。
上述分析沒有考慮到的是,我們還將看到FP32的外部DDR流量至少減少四倍。正如您可能預料到的那樣,與外部存儲器訪問相關的功耗成本比內(nèi)部存儲器高得多,這也是事實。如果我們簡單地利用Mark的數(shù)據(jù)點,我們會發(fā)現(xiàn)訪問DRAM的能量成本大約是1.3-2.6nJ,而訪問L1存儲器的能量成本可能是10-100pJ。看起來,與訪問內(nèi)部存儲器(如賽靈思SoC中發(fā)現(xiàn)的BlockRAM和UltraRAM)的能量成本相比,外部DRAM訪問的能量成本至少高出一個數(shù)量級。

除了量化所提供的優(yōu)勢以外,我們還可以使用網(wǎng)絡剪枝技術來減少推斷所需的計算工作負載。使用賽靈思Vitis AI優(yōu)化器工具,可以將在 ILSCVR2012(ImageNet 1000類)上訓練的圖像分類模型的計算工作負載減少30-40%,精度損失不到1%。再者,如果我們減少預測類的數(shù)量,我們可以進一步增加這些性能提升。現(xiàn)實情況是,大多數(shù)現(xiàn)實中的圖像分類網(wǎng)絡都是在有限數(shù)量的類別上進行訓練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個經(jīng)過剪枝的VGG-SSD實現(xiàn)方案在四個類別上進行訓練,需要17個GOP(與原始網(wǎng)絡需要117個GOP相比),在精度上沒有損失!誰說VGG沒有內(nèi)存效率?

然而,如果我們簡單地假設我們在ILSCVR2012上訓練我們的分類器,就會發(fā)現(xiàn)我們通常可以通過剪枝減少大約30%的計算工作負載。考慮到這一點,我們得出以下結論:

功耗=0.2pJ+0.03pJ/運算*7.7B運算/圖像0.7*1000圖像/s=1.2397W

將此值與FP32推斷的原始估計值33.88W進行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個重要的優(yōu)化機會。因此,當我們繼續(xù)尋找遙遙無期的“解決計算飽和的靈丹妙藥”時,考慮一下吳恩達斷言“AI是新電能”的背景。我認為他并不是在建議AI需要更多的電能,只是想表明AI具有極高的價值和巨大的影響力。所以,讓我們對ML推斷保持冷靜的頭腦。對待機器學習推斷應保持冷靜思考,既不必貿(mào)然跟風,也無需針對高性能推斷設計采用液態(tài)冷卻散熱。
本文地址:http://m.qingdxww.cn/thread-577852-1-1.html     【打印本頁】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內(nèi)容、版權和其它問題,我們將根據(jù)著作權人的要求,第一時間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

廠商推薦

  • Microchip視頻專區(qū)
  • Dev Tool Bits——使用MPLAB® Discover瀏覽資源
  • Dev Tool Bits——使用條件軟件斷點宏來節(jié)省時間和空間
  • Dev Tool Bits——使用DVRT協(xié)議查看項目中的數(shù)據(jù)
  • Dev Tool Bits——使用MPLAB® Data Visualizer進行功率監(jiān)視
  • 貿(mào)澤電子(Mouser)專區(qū)

相關視頻

關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
主站蜘蛛池模板: 色妹子综合 | 青青青青久在线观看视频 | www.色在线观看 | 国产乱码精品一区二区三区中 | 国产午夜视频在线 | 国产一区二区三区在线观看影院 | 国产精品日韩欧美亚洲另类 | 午夜诱惑福利 | 日本a中文字幕 | 五月天婷婷激情网 | 羞羞视频在线观免费观看 | 成人免费福利片在线观看 | 免费在线观看黄色 | 日韩欧美一区二区三区免费看 | 操穴网站 | 国产美女啪啪 | 2021时光音乐会在线观看 | 久久国产毛片 | 香蕉久久高清国产精品免费 | 日本a级三级三级三级久久 日本a级精品一区二区三区 | 日产精品卡二卡三卡四卡乱码视频 | 日韩在线视频免费观看 | 一级毛片免费全部播放完整 | 毛片在线视频在线播放 | 99热这里有免费国内精品 | 亚洲男女免费视频 | 99热国产在线观看 | 免费无遮挡十八女禁污污网站 | 香蕉在线视频播放 | aⅴ免费在线观看 | 亚洲欧美日韩在线不卡中文 | 亚洲国产精品免费在线观看 | 视频精品一区二区三区 | 老司机精品99在线播放 | 综合亚洲欧美日韩一区二区 | 91久久精品 | 欧美日韩精品免费一区二区三区 | 亚洲一区二区三区免费看 | 最新自拍偷拍 | 日韩黄a级成人毛片 | 香蕉女郎在线观看 |