ameya360：如何減少機器學習的碳足跡

發布時間：2022-9-14 15:49 發布者：Ameya360

　　根據去年在IEEESpectrum上發布的《深度學習受益遞減》一文中提到，隨著機器學習的發展，到了2025年，最強的深度學習系統在ImageNet數據集中進行物體識別時，錯誤率最高只有5%。但訓練這樣一個系統所需要的算力和能耗都是龐大的，更糟糕的是，其排放的二氧化碳將是紐約市一整個月的排放量。

　　機器學習的碳排放可以被分為兩種，一種是運營排放，也就是數據中心在運行機器學習硬件中產生的碳排放；第二種是整個生命周期內的排放，不僅包含運營排放，還包含了各個環節的碳排放，比如芯片制造、數據中心建造等等。考慮到后者涉及更加復雜的研究，所以大部分碳足跡的研究都集中在運營排放上。

　　至于如何記錄碳排放，這也很簡單，只需要將訓練/推理的時長x處理器數量x每個處理器的平均功耗xPUEx每千瓦時的二氧化碳排放即可。除了最后一項參數需要從數據中心那獲取外，其他的數據基本都是公開，或取決于機器學習研究者自己的選擇。

　　如何減少機器學習的碳足跡

　　圖靈獎得主、谷歌杰出工程師DavidPatterson教授對現有的機器學習的研究和工作提出了以下幾點建議。首先，從模型開始著手，機器學習研究者需要繼續開發效率更高的模型，比如谷歌去年發布的GLaM通用稀疏語言模型，相較GPT-3，它多出了7倍的參數，在自然語言推理等任務上都要優于GPT-3。但同樣重要的是它的能耗和碳足跡指標，根據谷歌公布的數據，與使用V100的GPT-3相比，使用TPUv4的GLaM二氧化碳排放減少了14倍，可見模型對于碳足跡的影響。其次，在發布新模型的時候，他建議也把能耗和碳足跡這樣的數據公開，這樣有助于促進機器學習模型在質量上的良性競爭。

　　接著是硬件，他指出我們需要像TPUv4或者A100GPU等，這類機器學習能效比更高的硬件。其實這一點反倒是最不需要擔心的，這幾乎是每個初創AI芯片公司都在嘗試的做法，即便在峰值上不敵這些硬件，也絕對會在能效比上盡可能做大極致。

　　還有就是常見的能效衡量指標PUE，大型機器學習負載往往要在數據中心上運行，而要讓數據中心的PUE接近1并不是一件簡單的事。根據UptimeInstitute的統計，各家廠商旗下最大數據中心的年度PUE為1.57，就連我國工信部印發的《新型數據中心發展三年行動計劃（2021-2023）》中提出的最終目標也只是將新建大型數據中心PUE降低至1.3以下。但好在新建的數據中心往往都不會只滿足于這個目標，而是往1.1乃至1.06這樣的指標推進。

　　可這個指標并不是一個死數據，隨著負載和用量的變動，PUE是在持續波動的，不少數據中心僅僅在建成時發布了能效指標，之后就再未公布過任何數據了。在這塊做得最好的也還是谷歌，谷歌每年都會發布年度能效報告，將各個數據中心每個季度的PUE公布出來。

　　不過僅僅只有極低的PUE只能體現出高能耗比，DavidPatterson教授認為還必須一并公布每個地區數據中心的清潔能源占比。比如阿里巴巴首次發布的《2022阿里巴巴環境、社會和治理報告》中就提到了2021年，阿里巴巴在中國企業可再生能源購買者中排名第一，2022財年阿里云21.6%的電力來自清潔能源。

　　在雙碳目標的提出下，我國其實已經落實到了機器學習的硬件上，但在軟件和碳足跡透明度這方面還有可以改善的空間。機器學習要想做到消耗更低的算力來實現更優的效果，就必須從各個環節做到節能減排。

本文地址：http://m.qingdxww.cn/thread-800998-1-1.html 【打印本頁】

本站部分文章為轉載或網友發布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。