国产毛片a精品毛-国产毛片黄片-国产毛片久久国产-国产毛片久久精品-青娱乐极品在线-青娱乐精品

瞄準五大方向持續攻關,構建AI網絡底座

發布時間:2024-8-26 21:20    發布者:eechina
關鍵詞: AI計算 , AI網絡 , AI集群
作者:是德科技產品營銷經理 Linas Dauksa

如果企業擁有數據中心,需要關注的是人工智能(AI)技術可能很快就會部署到數據中心。無論AI系統是一個聊天機器人,還是橫跨多個系統的自動化流程,亦或是對大型數據集的有效分析,這項新技術都有望加速和改善許多企業的業務模式。然而,AI的概念也可能會令人產生困惑和誤解。是德科技的這篇文章旨在探討有關AI網絡如何工作以及該技術面臨的獨特挑戰等五個方面的基本問題。  

GPU相當于AI計算機的“大腦”

簡單來說,AI計算機的大腦就是圖形處理器(GPU)。過去,人們可能聽說過中央處理器(CPU)是計算機的大腦。GPU 的優勢在于,它是一個擅長進行數學計算的 CPU。當創建AI計算機或深度學習模型時,需要對其進行 “訓練”,這就要求對可能包含數十億個參數的數學矩陣方程進行求解。進行此種數學運算的最快方法是讓多組 GPU 在相同的工作負載上運行,即便如此,訓練AI模型也可能需要數周甚至數月的時間。AI模型創建后,會被遷移到前端計算機系統,用戶可以向模型提問,這就是所謂的推理。

AI計算機集眾多GPU于一身

用于處理AI工作負載的最佳架構是在一個機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架,按照網絡層次結構連接所有 GPU。隨著所要解決的問題的復雜性增加,對 GPU 的需求也就越大,有些將要部署的解決方案可能會包含數千個 GPU 集群。這不難讓人聯想到數據中心里一排又一排密密麻麻的服務器機架,這種場景非常常見。
AI集群是一個小型網絡

在構建AI集群時,有必要將更多GPU連接起來,這樣它們才能協同工作。而GPU之間的連接可以通過創建微型計算機網絡的方式來實現,讓GPU與GPU之間能夠互相發送和接收數據。


圖1:AI集群

圖1展示了一個AI集群,其中最下方的圓圈代表了GPU在執行任務時的工作流程。將許多GPU連接到了機架頂部(ToR)的交換機。ToR 交換機還連接到了上圖頂部的骨干網絡中使用的交換機,這張圖充分描繪了需要集成眾多GPU時所采用的清晰網絡層次結構。

AI部署的瓶頸在于網絡

去年秋天,在OCP(開放計算項目)全球峰會上,與會者重點討論了新一代AI基礎設施。其中,來自邁威爾科技的Loi Nguyen充分闡述了由此出現的一個關鍵問題:網絡已經成為新的瓶頸。
GPU在解決數學問題或者處理工作負載方面非常有效。這些系統完成任務的最快方法是讓所有 GPU并行計算、協同工作來處理相同的工作負載。要做到這一點,GPU需要獲取它們即將處理的信息,并且它們彼此之間可以互相進行通信。如果其中一個GPU沒有得到它所需的信息,或者需要更長的時間來輸出結果,那么所有其他GPU都必須等待,直到能夠一致協作來完成任務。

從技術角度來講,擁堵的網絡造成的數據包延遲或者數據包丟失可能會導致系統需要反復重新傳輸數據包,并顯著延長完成任務所需的時間。這意味著,可能會有價值數百萬或數千萬美元的 GPU閑置,從而影響最終的結果,當然也可能會影響希望通過利用AI技術獲得商機的企業的上市時間。

測試是成功運行AI網絡的關鍵

為了高效運行AI集群,用戶需要確保GPU得到充分利用,這樣才能較早地完成學習模型的訓練,并將其投入使用,實現投資回報最大化。這就需要對AI集群(圖2)的性能進行測試和基準測試。然而,這并不是一件輕而易舉的事兒,因為GPU和網絡架構之間有著千絲萬縷的聯系和諸多設置,它們需要在架構上實現互補,以滿足處理工作負載的需要。


圖2:AI數據中心測試平臺及如何測試AI數據中心集群

這給AI網絡帶來了諸多挑戰:
-        考慮到成本、設備的可用性、熟練的網絡 AI 工程師的時間、空間、功率和熱量等因素的限制,很難在實驗室中復刻完整的工作網絡。
-        在工作系統上執行測試會降低工作系統可用的處理能力。
-        由于工作負載的類型以及數據集的規模大小和范圍可能大不相同,因此所要研究的問題也會難以重現。
-        深入洞察GPU之間的集體通信也頗具挑戰性。

應對上述挑戰的方法之一是,首先在實驗室環境中對所提出的設置的一個子集執行測試,以便對JCT、整個AI集群所能達到的帶寬等關鍵參數進行基準測試,同時將這些參數與Fabric容量利用率以及內存緩沖區消耗情況進行比較。這種基準測試有助于找到GPU/工作負載的分布與網絡設計/設置之間的平衡點。當計算架構和網絡工程師對結果比較滿意時,他們就能夠將這些設置應用到執行任務的工作系統中并且衡量新的結果是否理想。

小結

為了充分釋放AI的潛能,需要優化AI網絡的設備和基礎架構。企業的研究實驗室和學術機構致力于對構建和運行高效AI網絡所涉及的各個層面進行分析,以解決在大型網絡上執行任務所面臨的挑戰。尤其是在當前行業最佳實踐正不斷發生變化的情況下,形勢更是如此。只有采用這種可以反復驗證、高度協作的方法,業界才能實現可重復的測試,并靈活地嘗試各種“假設 ”場景,這是優化AI網絡的基礎。

本文地址:http://m.qingdxww.cn/thread-869341-1-1.html     【打印本頁】

本站部分文章為轉載或網友發布,目的在于傳遞和分享信息,并不代表本網贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問題,我們將根據著作權人的要求,第一時間更正或刪除。
您需要登錄后才可以發表評論 登錄 | 立即注冊

廠商推薦

  • Microchip視頻專區
  • dsPIC® DSC集成電機驅動器:非常適合在緊湊空間內進行實時控制
  • PIC32CM LS60 Curiosity Pro評估工具包
  • PIC32CM LS00 Curiosity Pro評估工具包
  • PIC32CK SG單片機——輕松滿足新型網絡安全要求
  • 貿澤電子(Mouser)專區
關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯系我們
電子工程網 © 版權所有   京ICP備16069177號 | 京公網安備11010502021702
快速回復 返回頂部 返回列表
主站蜘蛛池模板: 午夜欧美成人久久久久久| 亚欧乱色视频网站大全| 日本一区二区三区精品国产| 午夜精品久久久久久久90蜜桃| 日韩美女在线观看| 五月婷六月婷婷| 天天色天天舔| 手机看片福利盒子久久青| 欧美高清精品人妖| 亚洲国产一成人久久精品| 日日综合| 亚洲精品综合久久中文字幕| 午夜国产在线观看| 亚洲欧洲久久| 青青青视频免费线看 视频| 一本三道a无线码一区v小说 | 午夜一区二区免费视频| 亚洲国产日韩欧美一区二区三区| 欧美日韩国产中文字幕| 奇米777视频二区中文字幕| 欧美精品 日韩| 亚洲免费片| 青青草成人网| 亚洲欧美经典| 亚洲三级网站| 爽妇综合网| 一级毛片免费一级直接观看| 色就干| 色综合久久天天综线观看| 亚洲春色在线观看| 四虎四虎| 午夜欧美| 亚欧洲精品bb| 欧美成人午夜免费福利785| 日本被强制侵犯亚洲系列播放| 亚洲成a人片8888kkkk| 日本福利片午夜免费观着| 婷婷狠狠| 人人射人人舔| 一级黄一片| 欧美一级专区免费大片|