作者:一博科技高速先生周偉 陽春三月,春暖花開,草長鶯飛,處處透著生機和浪漫,也是一年中最美好的時光,可是由于疫情,很多人的生活、工作等節奏和安排也都被打亂了,雪上加霜的是,攻城獅豹哥還遇到了一件尷尬的事情,之前設計的一個項目在研發打樣階段調試一切正常,這次重新生產貼片了幾百片小批量的,結果卻發現有一些不良,關鍵是還沒有找到解決辦法,天天被客戶催著找問題,真是一個頭兩個大。 問題主要如下群聊內容所示:
初始反饋的信息可以總結一下就是:前面做了多次小批量一站式的試產,都沒有出現過問題,本次在我司生產完測試沒有問題,拉到客戶端測試就有時好時壞的現象,主要問題是CPU在啟動過程中DDR初始化失敗,還沒有找到解決方案,導致整機生產發貨嚴重脫離計劃節點,也就是整個項目的交期延遲了。 客戶問題無小事,這是我們的服務宗旨。我們立即和客戶一起成立了項目攻關組,大家分頭行動,從自己的專業角度去提供各自的一些解決問題的方法。在焊接領域,客戶提出了虛焊的可能,同時也說到重新焊接了CPU芯片的板子后面狀態就正常了,所以首先安排一些啟動異常的板子拿去焊接廠用3D X-ray看看是否有虛焊的可能,焊接廠反饋回來的部分結果如下所示。
深圳和珠海工廠的3D x-ray檢測結果出來了,都沒有發現焊接問題,CT掃描非常耗時,深圳昨天寄過去的板子建議就不要照了,沒有多大意義; 附件為珠海工廠3D x-ray檢測設備檢測結果如附件,沒有發現錫球不規則、無枕頭效應、無大小錫球等問題。 術業有專攻,雖然看不懂3D X-ray的結果,但從圖片來看,肉眼基本看不出太大的差別,作為門外漢的我看到的就是焊球基本一樣,顆粒飽滿均勻,沒有出現某單個球有明顯的不規則缺陷,可以初步排除這個板子虛焊的可能。這也是我們工廠的大利(sha)器,焊接質量好不好一照便知。雖然照了3D,但我們還是又對調了好板子上的芯片并重新進行了焊接測試,問題還是沒有解決。 焊接排除的同時,我們也在同步對 PCB制板進行排除驗證,制板的檢驗,除了切片等破壞性測試外,和信號電氣相關的就是看阻抗是否滿足制板要求,這個可以通過實測線路阻抗來驗證,于是該我們的67GHz網分上場了。板子到了我們的高速實驗室,我們馬上就進行了DDR4信號部分的阻抗測試,如下是DDR4單線部分設計的阻抗要求。
部分實際測試的阻抗如下圖所示。
數據信號阻抗要求39±5ohm,實測阻抗在36~40ohm,阻抗滿足要求。
地址控制信號阻抗要求36±5ohm,實測主干段線路阻抗在35.6ohm左右,阻抗滿足要求。 從阻抗實測的結果來看,基本可以排除PCB制板的問題,所以這個時候從信號完整性的角度開始了我們常規性套路的排查。
首先就是了解一下問題發生的情況,看看哪些現象可能是信號完整性造成的,比如降頻是否工作,一般DDRx降頻能工作的,基本就可以排除焊接、硬件原理方面的問題,然后集中精力從PCB設計、電源噪聲、信號質量及軟件配置等方面看看是不是系統時序裕量不足造成的問題。 此時出來了兩個小插曲,一個是客戶反饋本次顆粒換了另一個型號的料號,封裝上有一點小小的改動,但引腳什么的都沒有變化,這是本次和上次硬件上唯一的區別;另一個就比較詭異了,客戶反饋之前不行的,裝個散熱片按壓下又好了,反向按壓下又不好了(這個感覺有點像靈異事件,其實我們也經常聽其他客戶提到過),這導致我們定位問題變得又撲朔迷離了。
新的反饋導致我們有了新的方向和初步的結論,就是調換之前的顆粒重新焊接再測試下,如果問題解決那就萬事大吉。
另一方面我們還想按照我們的常規套路降頻再嘗試(掙扎)一下,客戶也非常的配合,但接下來的結論又把問題引到了一個新的方向。
降頻的方案說明有效果,之前出問題的現象重復多次不再復現,這個就可以果斷排除硬件原理、虛焊的可能,剩下的還是要從系統的時序裕量不足上去排除。另外之前吊詭的按壓現象也只是偶然的成功現象,不足以作為解決問題的方向,所以只能算是查找問題過程中的一個小插曲,進一步排除了虛焊的可能,也進一步說明了我們套路上一開始的思路是對的,只是中間方向太多,客戶也沒閑著,比我們更著急,所以各項工作都是相互并行在走。
系統時序裕量不足,這個確實是可以通過 仿真和實測對比的手段去定位,于是找到壓死駱駝最后一根稻草的任務又落在了我們身上。
對于這種有實物的板子,我們的套路一般是先通過 示波器測到板子上實際的信號,然后將實測的波形數據導入到仿真軟件中和仿真結果進行對比,如果在同樣的位置上仿真和測試波形一致,那么就基本可以確定芯片的模型是比較準確的,然后就可以通過仿真看到芯片內部真實的接收波形,從而根據波形好壞來定位問題。而目前的板子由于DDR4顆粒是正反貼片,除了焊接DDR4 interposer夾具我們沒法通過常規的手段來測試,但時間寶貴,最后我們退而求其次,在時鐘信號的端接 電阻處進行了測試,一般時鐘信號不需要任何其他的命令,只要系統可以跑起來就一直會有波形,所以我們可以先在時鐘的端接電阻上測試到信號,然后在同樣的位置上進行仿真對比,仿真和實測的部分對比結果如下圖所示。
信號波形本身的質量還不錯,從波形來看,兩者上升沿和下降沿基本可以完全對齊,除了幅度上有一些小的差異外,其他基本都是可以對上的,所以這個也可以反映出芯片的模型是可信的,仿真的結果可信,可以進行下一步全面的信號及時序仿真排除了。 就在我們準備大展拳腳開始仿真的時候,客戶突然說問題找到了,原來還真是軟件配置的問題,由于更換DDR4顆粒后實際參數發生了變化,而配置軟件還是按照之前的參數在控制,導致系統參數比較臨界,產生了部分系統不穩定現象,最終更新了軟件的配置參數,問題得到解決。
問題兜兜轉轉,沒想到竟然以這種意想不到的結果結束,真是幸福來得太快就像龍卷風,我竟有點措手不及的感覺,我們的工程師豹哥就是被太多這種摸不著頭腦的“幸!备愣d的。
所幸問題最終定位了,豹哥也松了口氣,雖然一波三折沒有直接定位到問題,但大家積極配合的態度還是充分得到了客戶的認可。從這個案例里面豹哥也得出了一些調試的套路,總結如下也和各位吃瓜粉絲們一起分享: 1、對于大多數信號問題,可以先降頻試試,如果降到了最低還是沒有任何改善,通常就需要從其他方面如硬件原理、軟件、制板或焊接等去找問題了,如果降頻有改善,那就和信號本身有關,可以從信號質量、電源、時序及軟件配置等方面去找問題; 2、工欲善其事,必先利其器。在本次查找問題過程中,我們先后動用了3D X-ray、CT掃描(掃描比較慢,文章沒有秀出來)、BGA返修臺、67GHz ZVA矢量網絡分析儀、59GHz示波器、仿真工具等,這好比對待一個重癥患者,各種儀器齊上陣,最終通過先進的儀器來查出病癥,對癥下藥。要想在PCB這個行業有所突破,沒有這幾把刷子也只能是徒勞。記得有位前輩戲謔過,以前在調試前都是要先去旁邊的廟里拜一拜,也間接說明調試確實不是那么容易的事,只能說坑(套路)太多。 大家在調試過程中遇到過哪些坑,也一起來分享下吧。
|