1. 引言 電子元器件的可靠性是電子設備可靠性的基礎。電子可靠性工程是提高產品質量和可靠性,降低硬件生產故障率和市場失效率的系統工程。 根據業界的分析,60%以上的生產故障是由于器件失效引起的,70%以上的市場返修也是因為器件失效引起的,而大多數公司對此卻沒有采用系統化的電子可靠性工程方法來解決,導致效率較低,產品質量可靠性不高。其實,通過選擇合適的器件,有效地控制器件質量,合理應用器件,進行可靠性設計,達到業界領先的產品質量是可以實現的。集成電路芯片在電子系統中起到越來越重要的作用,在以珍視生命的大前提下現代的醫療設備,汽車,武器裝備,航空設備等電子系統的使用,保障和維修費用越來越龐大,經濟可承受性成為一個不可回避的問題。現在,故障預測和健康管理技術在電子系統中已經有廣泛的應用,作為電子系統的主要部件和大腦的集成電路芯片能不能也采用故障預測和健康管理技術呢?能不能做到將故障預測的范圍從部件縮小到芯片呢? 2.故障預測與故障診斷 故障是產品不能完成規定功能或性能退化不滿足規定要求的狀態。現在通常的做法是在故障發生后,通過故障診斷的方法找到故障原因。故障診斷是系統發生故障后,通過別的方式、手段來警戒用戶,因此故障診斷是事后維修的一個依據。事后維修是以系統故障為依據,在系統出現故障后才進行維修以恢復系統的正常功能。事后維修是最原始的維修方式,可以減少一些不必要的維修費用,但當一個部件出現故障時他可能會損壞其他部件,毀壞整個系統,甚至危及人身安全。這是事后維修的局限性。 在這里提出新的概念—故障預測和健康管理。故障預測是以當前的使用狀態為起點,對將來可能出現的故障進行預測,向用戶及時提出警告,以便能夠采取措施避免重大惡性事故發生外,對現行的系統管理和維修制度也有開創性的作用,達到及時的故障預測和有效的健康管理。Ridgetop-Group 的故障預測和健康管理方案能夠告訴用戶當前系統的健康狀態和剩余有用時間。因此故障診斷是發生在系統失效之后,故障預測和健康管理是發生在故障出現之前。下面給出Ridgetop Group 關于集成電路芯片器件和電子系統的故障預測說明圖1. Ridgetop 建議如果芯片觸發了故障預測報警點,說明芯片已經接近它的實際壽命,應該提前采取措施,預防重大事故發生,比如更換芯片或更換整個PCB板。 3.集成電路器件故障預測的應用 故障預測和健康管理技術已經應用在航天、民用飛機、武器、軍事上,這里不在贅述。在這里將要討論集成電路芯片器件的故障預測技術,首先應知道有哪些因素導致芯片的壽命減短或在芯片的生命周期內失效呢?ESD、TDDB(時間相關介質擊穿)、NBTI(Negative Bias Temperature Instability)、電遷移、熱載流子、輻射損傷等實效機理是半導體中無法回避的。既然這些半導體效應是不可避免的、不可回避的,就可以根據這些效應進行集成電路器件的壽命進行預測。可靠性的問題實際上也是對未知的問題加以控制。美國Ridgetop-Group針對靜電損傷(ESD)、TDDB(Time Dependent Dielectric Breakdown)、電遷移、NBTI(Negative Bias Temperature Instability)、熱載流子、輻射損傷等失效機理,做到了在宿主器件剩余20%壽命時失效。 根據故障預測的結果或故障預測的報警點可以進行預知維修,比如更換芯片或提供芯片的真正的使用壽命給芯片設計者。以至于把災難性故障的風險降到最小,使系統或芯片器件發揮最大的效能。這里主要介紹ESD、HC、TDDB、NBTI的故障預測。 3.1 靜電損傷的故障預測 靜電損傷是半導體領域的難點, 很多企業使用靜電腕帶或離子風來減少靜電效應, 靜電損傷是不易被察覺的,它的影響也是不能馬上就能體現出來。但是靜電損傷的確是存在的,也是減少芯片器件生命周期的一個因素,也就是使對靜電損傷進行故障預測成為有效使命。這里提供Ridgetop-Group關于靜電損傷的故障預測單元. 請看它的示意圖2.和ESD預測單元圖3。 圖 2. 示意圖 圖3. ESD 預測單元 從圖3.看, ESD故障預測單元是和用戶的主電路在同一芯片器件里, 和主電路處在相同的環境下,環境包括過高壓、 過低壓、 瞬時毛刺、濕度、惡劣的溫度及輻射。 因此ESD單元能夠預測主電路的使用壽命,給出預測報警點,但是它需要占用額外的芯片管腳。 3.2 熱載流子(HC)的故障預測 熱載流子容易在N溝道MOS管靠近漏極處在二氧化硅或硅處形成負電荷陷阱. 熱載流子效應是MOS管的一個重要失效機理,是大家所不希望的. 熱載流子容易導致MOS管的Vt增加和Id減小.示意圖4和圖5. 圖4. 漏極雪崩熱載流子 圖5. 溝道熱載流子 目前,通過施加電應力加速MOS器件中熱載流子效應的產生,并以器件的某些參數(例如閾值電壓Vth、跨導gm等)變化量達到行業標注為失效判據,估算出器件在應力作用下的壽命值,再根據一定的模型推算出正常工作條件下的壽命值—既芯片的設計壽命。Ridgetop-Group 提出了用在芯片中附加熱載流子單元方法來監測熱載流子效應,實時監測芯片的健康狀態和芯片的剩余使用壽命,使芯片的效能達到最大化。介紹一下HC單元的示意圖6. 和應用圖7. 圖6 HC單元示意圖 圖7. HC單元應用圖 如圖7.HC單元與主電路被放在一起,與主電路一樣受相同的外界應力影響,這些外界應力決定著芯片的壽命。當主電路在測試方式下,這個單元將觸發,進入到預定的、連續的應力和測試循環,最終給出電路真正的壽命。 TDDB效應的故障預測 TDDB效應是由小幾何體, 多溝道,薄柵氧化層, NMOS 襯底注入引起的, 它容易造成噪聲增加,功耗增加,MOS管器件電參數不穩定,如:闌值電壓漂移、跨導下降和漏電流增加等,甚至可引起MOS管失效。Ridgetop-Group TDDB 故障預測單元是利用和主電路在一起的利用JTAG 技術的TDDB物理單元加HALT 測試方法來實現的。 NBTI效應的故障預測 NBTI效應主要130納米及以下工藝中。當柵源的電壓是負電壓,PMOS 容易發生NBTI效應。在氧化硅和硅的界面處,負偏壓和/或溫度容易造成正阱,造成Vt 增加和Id的減少。造成電性的間歇性和失效, 導致芯片可靠性和壽命降低。Ridgetop-Group TDDB 故障預測單元是利用和主電路在一起的NBTI物理單元來實現的。 對于在半導體中的金屬遷移和輻射等效應,它們都在影響半導體壽命,有同樣類似的單元來對金屬遷移和輻射效應等進行預測,只是它們針對不同的目的,不同的問題。這些單元與客戶的主電路隔離開,互不干擾,但它們實現了芯片內部的自檢測試(BIST),達到要檢測的目的。對于這些效應的預測,請查閱Ridgetop Group 工作網站。 4 總結 故障預測技術是可以應用在半導體設計中的,隨著最終用戶的要求越來越高,也要求芯片性能越來越高,如果能夠預測芯片的壽命,使系統維修和芯片的替換變得更容易、更簡單。上述這些半導體效應是不能避免的,但是它們是可以預知的, 因此故障預測技術可以應用在半導體設計領域,將故障預測范圍縮小到芯片級,避免重大惡性事故發生。 |