武曄卿 工作中,不少朋友,幾乎每位工程師,都遇到過電子產品在用戶現場偶爾發生故障,如死機、復位、數據傳輸錯誤等。維修工程師在現場跟蹤排查時,故障又不會再現,拿回實驗室,怎么試驗又都是好的。使人陷入一種無從下手的窘境。找到通用方法作為此類問題的解決思路,成了電子設計行業共同的問題。 自然科學領域的題目不容易解開的時候,束縛住了的思維難以突破,不妨跳出來,進入到社會科學領域,通過哲學、通過思維方法論來找到突破口。朱清時說過“我通過化學科學的方法好不容易解決了一個問題,卻發現佛學早就在那個科學的頂峰等著我了”(本句話文責由朱清時老師負責)。 那面對偶發故障的問題,一個解決它的方法論或許就是類聚原理。 在日常生活中,有一種說法叫“物以類聚,人以群分”,意指不是一類人不進一家門。如果一個人很上進,跟他朋友圈里的親密朋友基本也差不多都是上進類型的。因此推斷一個陌生人是否上進,看他周圍的朋友的狀態就可以了。如果他周圍的親密朋友都很成功了,那他即使現在不成功,離成功也不遠了,起碼他的成功潛質很大了。絕對的潛力股。如果是這樣一個相親對象,趕緊抓住他,絕對的低價原始股。 當然,根據他的歷史推斷他的將來,也是有跡可循的,古人不是說“三歲看大,七歲看老”嘛,從他的現在看過去,從他的現在看未來,都是有一定道理的。雖然不敢肯定100%全對,但基本差不到哪里去的。關鍵是您也不是暫時沒有別的辦法了解他更多嘛。也只好死馬當活馬醫嘍,更何況這批馬沒死停當呢,還有得救。 同理,一個電子產品,它偶爾才發生故障,那您以為它不發生故障的時候,就會完全正常嗎? 表面裝得再若無其事,測謊器根據其生理狀態的波動,也是能發現蛛絲馬跡的異常的。測謊儀的測量指標是人的生理參數,那針對一臺曾經發生過故障但現在正常的設備,測謊的指標則是——波形。一是這臺設備正常工作時的波形質量,就會有信號隱患的特征;二是同類設備也很可能會有信號波形或數據隱患能被測和分析出來。 有隱患的機器,即使從性能上看暫時都沒事,但其波形,也一定會有所偏差或波動或異常,只不過波形變異暫未超出導致設備工作異常的參數范圍而已。我們去測隱患機器未發生故障時的工作波形,分析波形里隱藏的信息密碼,就可發現問題的隱患和緣由。如下列舉部分波形異常現象及其所對應的潛在隱患問題。 在講波形異常及隱患分析之前,得先說清楚一個專業名詞——電壓容限。這是信號異常與否的關鍵。 對于數字電路(如圖1),輸出器件的信號分別為高電平(用VoH表示)和低電平(用VoL表示),這兩個電平的電壓都是一個允許的電壓范圍,只要在VoH范圍內的輸出電平,都認為是合理可接受的高電平,只要是VoL范圍內的輸出電平,都認為是合理可接受的低電平。同理,接收端能接受的高、低電平也是一個范圍,分別為VIH和VIL,不同的是,VoH和VIH、VoL和VIL并不是相等的電平,而是有一個電位差Δ,這里的Δ就是電壓容限。 數字電路里,我們所研究的器件參數選型計算、EMC、SI等技術措施,都是為了讓從輸出端發送出的電平信號,經歷一系列的傳輸線纜衰減、空間輻射干擾耦合疊加、傳輸線信號反射、外界環境導致器件參數漂移、電源地線波動引起相對電平變化等等問題后,接收端所接到的信號電平,相對于輸出端電平,都沒超過Δ的允許波動范圍。滿足了這點,即便是有些外來干擾破壞,電路仍能照常工作。 圖1 數字電路電壓容限示意圖 對于模擬電路,也有一個電路精度要求,即電壓容限值±Δ%(圖2),設計中所要控制的,就是在任何的波動干擾下,模擬輸出量都不能超出±Δ%的范圍。 圖2 模擬電路電壓容限示意圖 基于以上的理論基礎,下面列舉的就是常見的幾種波動和作用機理了。 1、電源或地線的電平波動厲害 VCC波動低了,大部分時候并沒超出Vcc的允差范圍Vccmin,但在現場條件組合應力嚴重的時候,一下子給弄超了就可能造成誤觸發,刷寄存器或觸發不期望的功能。這時通過測量Vcc波形,就可能發現(如圖3)的波形,即使沒低到足以觸發問題的地步,但只要有類似癥狀,就有隱患,就必須在電源的穩定上做文章了。必須確保電源的最大波動范圍距離臨界值很遠才把握。 圖3 地線波動同理,可以通過測量地線上任意兩點之間的波形,正常情況應該是一條基本接近于0V的平直線(如圖4中紅線),如果出現了向上的尖峰(圖4紅圈),則可能帶來風險,因為地線上升,帶來的就是片選信號、reset信號等敏感信號的電位差下降,Vreset-Vgnd小于了某個臨界值,芯片就會當成一個復位低電平輸入信號了。較常見的是給設備打+6000V靜電接觸放電時,地電平上被耦合或傳導進去,極易引起復位就是類似道理。 圖4 2、數據傳輸速率與傳輸線器件特性參數匹配不良導致波形變異 正常情況下,因為數據線過長、線間電容、接收端輸入電容較大、導線上串入電阻較大、接收端輸入端口防護器件結電容等的影響,會導致形成(圖5)里的上圖黑色波形。在速率比較低的時候,數據傳輸的正確率是能保證的。但當軟件工程師不管不顧地加快數據傳輸速率時,會導致上升沿還未沖到接收端的電壓容限值下端VHmin時,就不得不因為周期問題而走下坡路了,形成圖5上圖中的紅色波形部分,最高點低于了VHmin值,接收端自然就讀不到數據了。如果就是所有的都不正常了倒還好查找了,最擔心的是處于導致波形在正常與非正常之間的傳輸速率臨界點,就可能在現場偶發傳輸數據錯誤了。可能的現象是把導線剪短點、或換個小點的電阻值、或者拆掉個電容、或減少個終端,數據就會好了。 圖5 3、波形出現回勾 回勾的波形如(圖6),它的形成是因為導線有高頻特性,可理解為小電感和小電阻的串聯,而數字電路輸入端口,又可以理解成一個Pin-Gnd的對地電容,以及一個輸入跟隨器特性,走線的特性和器件的輸入等效特性合并在一起,就有了如圖6的電路特**。V4給出10MHz方波信號,右圖上5點就可以測得接收左圖回勾變異波形。 本實例雖然有回勾,好在回勾部分在上升沿時并未穿越VHmin限值,下降沿時也未觸發VLmax限值,因此不至于引起信號質量問題。但如果導線特性參數和器件輸入特征參數有變,導致回勾特性的上升沿上移了,或下降沿的回勾下降了,危險豈不大哉? 圖6 按說寫到這里,這個類聚原理的道理應該能說明白了。但是還有好幾個常見的類似波形質量隱患問題,所以還是捺著性子寫下去吧… 4、波形出現臺階(圖7) 有時,我們會測量到(圖7)或(圖8中間圖)中間平臺形狀的波形,這種是由容性負載與布線聯合作用引起的。這種波形的危害在于,有的接收器件,接收到信號后,判別上升沿的方式是通過對上升沿作微分,然后根據微分后的尖峰閾值判讀是否為上升沿。如果中間出現了平臺,微分電路則會導致出現兩個有一點時間間隔的尖峰。如果兩個尖峰都很高,則會導致重復誤觸發;如果都低,則會無觸發;這兩種情況都導致錯誤。 (圖8上圖)為源端輸出波形,是標準的方波;(圖8下圖)為導致(圖8中圖)平臺波形的電路結構。該圖為仿真效果。 圖7 圖8 5、波形有過沖 波形里常有過沖現象,如(圖9)。如果振蕩幅度不夠大,不會經過VHmin和VLmax的限值,則萬事皆無。但如果振蕩的幅度超出了VHmin和VLmax的臨界值,則可能會產生誤觸發,因為很多芯片是以上升沿中過VHmin的電平躍變做為上升沿觸發信號,如果越界了,則有造成2次上升沿觸發的風險。 導致這條曲線特征的是信號線或地線的走線感性特性與線間電容、器件輸入電容、PN結電容等相互作用的結果。地線上的類似衰減性振蕩波動術語叫“地彈”。 圖9 6、電壓跌落 電源線上有串電感或電容了,電源啟動、負載啟停的瞬間,因為電感的反向電動勢、容性負載大電流導致的電源瞬間塌陷,都會有電源瞬間跌落的風險。如(圖10)。這個波形在負載突然啟動或突然掉點馬上又上電的時候可能會發生。如果幅度大了,掉電的時間長了,極可能就有復位、刷E2存儲器、誤觸發等風險了。 圖10 以上描述了幾種常見的可能導致電路工作異常的變異波形,其故障作用機理理解了僅僅是改善的第一步,下一步還需要理解是什么設計問題導致了這些波形的產生,是哪些特性參數影響到了變異波形的哪個參數?通過設計改善哪一點才能使這些變異不再發生或不至于導致問題成為顯性故障? 這些都是未來的文章里要討論的問題。 簡單總結:就是遇到偶發故障問題產品了,即使手頭沒有該故障產品,或者有也激發不出問題來的時候,您就找完全相同設計的產品,查找懷疑器件的信號波形,如果都是特標準的波形,那就先暫時放過,如果稍有異常,就把它記錄下來,隨后仔細分析這些異常如果再大一點的話,有沒有可能觸發現場的偶發故障,如果是,那就針對這個異常波形改進設計,改進好了,讓它遠離激發故障的電平臨界值了,偶發故障基本就很可能被根除了。這種原理就是類聚原理。由“一個大壞蛋的同伙至少一定也是個小壞蛋”的道理推演而來。 也許會有人問了,這么個有用的方法,這么有實際指導意義的原理,誰發現的呢?告訴您吧,是我!那名字為什么起類聚原理而不是群分原理或其它的名字呢?嘿嘿,瞎起的!希望對您有用就好。 |