1.引言 超大規模高性能并行圖像處理器常常集成了數十億計的晶體管,工作頻率達GHz以上。這樣當處理復雜圖像應用程序時,GPU將在微秒時間內急劇上升到數百瓦功耗,這對電源分布系統(PDS)將產生巨大的沖擊,導致GPU芯片電壓不足,從而出現系統功能異常。 2.系統異常的原因分析 ● GPU中CMOS工藝的要求: 為了降低功耗,GPU芯片工作電壓較低,并允許在寬的范圍工作,如0.7V-1.2V。電壓越高時,內部開關MOS管的Vgs越高,MOS管導通電阻越小,因而傳輸時間常數減少,工作頻率提高;當電壓過低時,MOS管將無法形成正常導電溝道,引起邏輯錯誤。因次,一個電壓相對穩定的電源供應系統(PDS)是系統正常工作的前提。 ● GPU動態工作模式的需求: 高性能GPU采用了很多先進功率控制技術,使得最大功耗達到幾百瓦,而待機功耗約幾瓦,動態性能模式切換(DPM)便是其中技術之一。通常DPM時鐘頻率設置在100MHz-1000MHz范圍,電壓在0.7V-1.2V之間。如圖1所示,GPU可在不同DPM狀態切換,當GPU處理負載加重時,將快速轉換到高性能模式,如HCLK1-HCLK4,電壓V3,而如果電壓不足,內部電路將不能維持這個模式,而引起系統故障。 圖1 GPU動態工作模式 ● PDS性能限制 開關電源本身性能的限制。開關電源供電能力強,體積小,成本便宜,帶有OCP、OVP保護功能。但是開關電源周期性地打開和關閉MOS管,會產生很大的電源紋波和噪聲。 電源分布網絡參數限制。它是指從電源至負載的所有電氣分布參數的總和,即線路的R、L、C、G的整體效應,來源于PCB材料、層疊、印制線、過孔、屏蔽以及GPU封裝以及內部硅電路設計。所有這些分布參數,會在電路中產生分壓、分流以及反射、衰減損耗等多種影響。 對GPU負載而言,交流高頻信號來源于負載的動態切換引起的電流瞬態變化,加之電源分布網絡中的阻抗不連續,而在LC分布網絡中產生高頻噪聲信號。對大電流(如200A以上)的GPU來說,電壓跌落達數百毫伏,超出DPM設置范圍。 3.峰值電流控制技術 GPU瞬態電流變化過大,必然造成供電網絡損耗增大,GPU可獲得電壓降低。為了避開電壓跌落造成的沖擊,GPU須及時向下切換動態模式,降低時鐘頻率,降低工作電壓。峰值電流控制技術正是基于這個目的所設計的,它還需要軟件一起協作。圖2所示是峰值電流控制技術軟件流程圖。系統通過及時檢測工作電流變化,可快速調整工作狀態,減少芯片功耗,避免系統死機。 圖2 峰值電流控制技術軟件流程圖 4.GPU工作電流感應的硬件電路實現 如圖3所示,為了對GPU瞬間大電流變化做出及時反應,電流檢測由硬件電路完成。當GPU動態電流超過預定閾值時,硬件電路會產生一個邏輯信號通知軟件單元。本技術巧妙地利用電源網絡分布電阻來感應在線路中損耗而產生的電壓降。我們取電源輸出端A點和負載端B點作為電流放大器的輸入。當A、B點壓降過大時,GPU消耗的電流過大,電壓比較器輸出一個高電平通知軟件及時調整GPU動態模式,降低頻率和電壓,從而保證GPU及電源均能夠正常工作,避免死機。 圖3 GPU電流感應的硬件實現框圖 5.測試結果 該方案已經應用到某型號GPU產品上,經過調試及性能測試,取得了滿意的效果。圖4是GPU芯片電流瞬間變化時用示波器所測試得到的波形圖。 圖4 峰值電流控制技術波形圖 圖4所示中,通道1為預設電流閾值(約47.7A);通道2為實際A、B點壓降,除以0.1ohm(線路分布阻抗)后表示最大電流約為55.2A;通道3為遲滯比較器輸出;通道4為GPU管腳電壓波形。當電流超過閾值時,遲滯比較器被觸發,產生高電平中斷信號。軟件開始切換動態工作模式,設置GPU電壓VLOAD降低約100mV。當電流減小并小于閾值時,比較器輸出低電平,系統回歸正常并繼續監測。 6.結論 由上分析及測試結果可知,峰值電流控制技術是一種能夠合理分配GPU負載,避免系統意外死機的很好的控制機制,可顯著提高系統的穩定性和可靠性,可在高性能計算、圖形處理芯片設計等領域投入實際應用。 |