作者:merlin2007 打鬼 現在的問題是知道了原因,未必就有辦法。 這是個兩年前完成的設計,板子上的電源及控制狀態都已經固定,不可能再動,要動就成了修改設計了。所以前面所說的1,2,3條都辦不到。但是第4條卻是可以動動手腳。在這個板子上,是由一個大型ASIC直接驅動這兩個QDR存儲器。其時鐘在ASIC的直接控制下。如果通過軟件控制ASIC內部的相關寄存器在加電后先切斷時鐘輸出一段時間,然后再開通,不就符合第4條的要求了嗎。為了證實此方法的可行,我又去查那個ASIC的技術文件。那是個有數百個管腳的芯片,幾千頁的文件浩如煙海。好在我的目標明確,直奔主題,很快查清,確有一個寄存器可以用來控制這個時鐘的輸出。此計可行!剩下的就是具體實施。但這卻是不在我的掌控之中了。 這部分軟件修改涉及到ASIC的驅動程序,而這個驅動程序又被測試和應用兩大系統使用,相關的軟件開發團隊有幾百人,遍布全球。每個新版本的含蓋內容及要處理的問題早已排好了計劃,容不得我一個搞硬件的插手。我只能找相關的軟件工程師幫忙了。負責這部分的人遠在西部的SAN JOSE, 不能面談,還有三個小時的時差。只能通過電郵聯系了。 急忙寫好郵件,說清原委,指出要修改的地方和方法,,,當然也少不了一番好話和感謝。 剩下的就是等著了。 這段時間我原來的部門經理休長假不上班,由另一個組的頭兒麥克帶管我們組,人也遠在波士頓。麥克沒有介入這個項目的開發過程,對情況一無所知。現在出了這樣的事,平添了一股壓力,頗有些緊張。因為都知道停產(LINE STOP)意味著什么。雖然說問題原因可能各種各樣,但搞硬件的人肯定是首當其沖站在第一排挨*子兒的。萬一問題解決不了,炒掉個把工程師是小事,他這個當經理的肯定也脫不了干系。 代管代出個這樣的結果不是倒霉嗎!所以他的電話和電郵就不斷,又要開會,又要找人,也不知道到底要干什么,其實是有點兒麻爪兒了。我這里已經有了方案,但在未證實之前,又不想張揚,怕萬一不成,沒有了退路。只好先含含糊糊的應付他,最后干脆不接電話了。 挨到了快下班的時候,SAN JOSE有消息了。負責軟件的那個哥們挺幫忙,按要求改好程序后給我發來過來。馬上,開機,啟動測試: 一遍,通過。 兩遍,通過! 有門兒! 但這還不算。別忘了前面說過,有的板子是可以通過測試的,但并不能保證多次重復后還不出錯。按要求必須要長時間反復測試才行。測試程序跑一遍要十幾分鐘,于是就寫了個控制自動測試的SCRIPT,讓這幾塊板子,加電,測試,關機,再加電,,,總之得把它們往死里折騰。。。 回到家,吃完飯,心里還是不踏實。就把筆記本電腦通過VPN接到了公司里測試用的路由器上,,,這也是典型的C公司文化。C公司為充分展示其網絡設備公司的技術,和利用其自有網絡的資源,早在十幾年前就給每個工程師都配發了一部筆記本電腦。 在今天這個筆記本電腦都已經臭了街當白菜賣的時代,這實在不算個什么事兒。可是在當時每部還是要兩三千美元的時候,就顯得很奢侈了(因為辦公室都還有臺式機和工作站用)。而且員工在家中的上網費用由公司報銷。當然這一切不是為了擺闊,目的是讓你在任何時間任何地點,只要有網絡存在,就能讓你連到公司的任何一臺服務器或者路由器上。公司的理由是:作為一個網絡設備供應商,如果我們自己都不能用好自己的網絡,如何能說服用戶買我們的設備?這樣你就沒理由說“我不在實驗室,不能。。。”的話。所以公司的一道風景就是,一到開會時,就見人手一機,這邊說著會上的事,那邊屏幕上還跑著終端上的數據。當然,也免不了時不時 的看點兒閑白兒,查查股票。當經理的也都知道,睜一只眼,閉一只眼。只有一條,你得出活兒,不能誤事,,哦, 扯遠了。 簡短截說,由測試路由器終端返回的結果整齊而穩定: 測試完成,零錯誤。。。 測試完成,零錯誤。。。 ::: 測試完成, 零錯誤。。。 這一行行的字符看著比美女照片都養眼啊! 基本上可以肯定,問題解決了。為了保險起見,我強按住發電郵通知的沖動,決定再等一個晚上。待明天看完結果再說。那晚上,睡得好香。。。(哦,不過說實話,我平時覺也不錯,躺下就跟死狗似的) 第二天一上班,就迫不及待地檢查結果,不出我所料:全部測試通過,沒有任何錯誤。大功告成! 不過,事兒還不算完。。。 哪來的鬼? 剩下的事情就是按部就班了。把新的測試程序轉給專門的測試組,由他們按規定對工廠發回來的五塊板子再進行全面測試。他們要比我折騰得狠,全部測試完成要幾天的時間。但我已經不擔心了。 還有當然是要向有關人員通報,頭一個就是麥克。這家伙聽到結果后沒有表現出很高興的意思,似乎對問題的原因不太相信。不過,按照經驗來說,他是對的。 一款新器件用于生產,不是拿來就用的。取得了公司器件庫的編號,只意味著允許裝機使用,但不意味就可以用于生產。必須要經過全面的測試驗證。公司并沒有專門的測試平臺,哪個新產品設計選用新器件,哪個產品就要當作測試平臺。選用這款器件的工程師也就同時還擔負有驗證的責任。測試要由獨立的測試組進行(就是前面提到過的)。測試過程中要給設備加載100%的數據流量,同時升高或降低各路電源電壓,時鐘頻率,以及環境溫度。依據設計不同,這些組合有可能達到幾十個,所以又稱為“corner test”.,如果是因為這個器件哪一項測試通不過,那就得摘牌兒。經歷了這一番歷練,在所有的犄角旮旯里都能正常工作,才算通過,允許用于生產。以后如果其他設計使用時,最后也還要重復同樣的測試。所以,一般情況下,設計師都愿意使用數據庫中現成的器件,因為風險要小得多。 作為替代品,在這款K公司的存儲器提供樣品后,也經歷了同樣的過程:將幾塊已經通過測試的板子上的CYPRESS片子拆下來,再換上K公司的片子去測試。這個過程雖然是由新品工程師負責,我沒經手,但通過測試的結果我是知道的。 如果器件廠家因為各種原因需要修改器件性能,變更技術文件,應該在第一時間通知用戶。公司在收到通知后也會對數據庫進行更新,加入新的內容。搜索器件數據庫,你可以發現每個器件下都列有所有時期的技術文件,甚至有的還有掃描上去的手寫的會議記錄。 K公司的關鍵問題是后期批量生產的器件較之用于測試的樣品有了變化(廠家技術文件的修改說明了這一點),可是卻沒有通知用戶!這種情況很少見。 我向麥克說明了這些情況,并且給他發去了兩個內容不同的技術文件,以及目前測試的結果。事實俱在,他終于認同了。然后馬上他就表示出了一種憤怒:K公司怎么能這樣!不想玩兒了嗎?我要找他們! 也是,平白無故受了這么大的驚嚇,擱誰也不干。再者說,想在C公司的這桶飯里挖一勺子是那么容易的嗎?這就要多說兩句關于C公司的元器件供應商認定過程。 因為是大型網絡設備制造商,C 公司的元器件采購對各個供應商而言是塊大肥肉。因為這類器件的利潤要遠高于用于消費類產品的器件,所以誰都希望能插上一腳。但問題是C公司并不是來者不拒,而是要對各個供應商逐一審查,包括器件性能,供貨條件,甚至公司的財務狀況,都要考慮。即使器件不錯,可是如果不能保證供應,甚至不知哪天關門了,要東西沒有了,那不坑人嗎。我就知道有過為了保證器件供應,C公司甚至要給某個供應商提供財政資助的情況。由此可見,能讓C公司認可不是件容易的事。而一旦被認可上了名單,不但可以應用于現有產品,在有新項目開始時,設計師也會優先考慮使用。這對供應商而言就意味著可觀 的出貨量和利潤,任誰都不會對此掉以輕心。 說一件我親身經歷過的事做例子。就是在開始設計上面提到的這個項目時,需要一個帶電切換電路(HOT SWAP)。以前的設計都是用分立器件,設計復雜,所需的空間大。我希望簡化設計,到處尋找替代品。后來發現ONSEMI有個芯片接近我的要求,但還要修改才能使用。于是就和它的銷售代表聯系,說明了我的要求。他們滿口答應同意修改。很快,新芯片出來了,完全符合我們的要求。設計簡單,所需空間大大縮小。于是不但用在我的設計中,隨后其他人的設計也紛紛使用。但是過了一兩年后有消息說ONSEMI要停產這個產品,原因是其成品率太低,實在不賺錢。可C公司有幾個產品都使用了這款器件,已經投產。這時ONSEMI如果停產不就把我們給晾這兒了嗎。于是有關部門就找ONSEMI的人討論此事。具體過程不清楚,但最后的結果是:ONSEMI繼續生產這款器件,但只供C公司一家使用,以維持現有產品的生產。而新設計則建議使用其下一代產品。顯然ONSEMI寧可吃點兒虧少賺點兒,也不愿意冒開罪C公司從而失去供應商的資格的風險。 像K公司這種做法,顯然C公司是無法容忍的。 沒讓鬼嚇著 麥克如何去和K公司交涉我就不關心了。那不是我的事。但我后來聽他說,開了好幾次電話會議,把出現這個問題的原因查了個底兒掉。K公司反復地解釋了原因和解決的措施,并一再的道歉,確保不會再有此類事發生才算罷了。 幾天后,全部測試完成,沒有再發現任何存儲器測試錯誤。后面的事就簡單了。因為這個問題并不真正是器件的物理故障,是初始化的問題。而且目前只是在工廠測試中發現,沒有出現在用戶的系統中。所以不需要召回那些用戶手中的設備,只要通過更新測試軟件即可解決。當然,用戶的應用軟件也要升級以避免同樣的問題,這些通過計劃中的軟件更新就可以了。 結果可以說皆大歡喜。麥克給我發來 一份電郵通知說,給我發了一筆獎金。通知中說:感謝你在這次處理XX產品停產事件中所作出的努力,使問題在這么短的時間內就得到了解決,。。。云云。錢不多,幾百塊而已。不過想起剛開始時所承受的壓力,也算是個安慰吧。在這個過程中,我基本上沒走彎路,對這一點我還是挺滿意的。 “這么短的時間。。。你到底用了多長時間”? 不算后來測試組正式測試所用的時間,我一共用了兩天,一天復現問題,一天查原因,找解決方法和測試 。 還行嗎? 還行吧! 不久,我的部門經理克絲蒂回來上班了,很快也聽說了這件事,但她并沒有任何表示。 過了一段時間,她給我看了一份公司關于該系列產品的報表。在產品銷量一欄, 我的這個產品名列榜首。而在返修率(RMA)一欄,則是孤孤零零的一個“0”。 “You should be proud of this!" 她對我說。 我可以“proud“ 嗎? 路由器這玩意兒不同于時裝, 也不像手機,它的銷量完全取決于用戶對此類產品的需求。我一個設計師是左右不了的。所以我不能把這頂高帽帶在自己頭上。 至于返修率的問題嗎。。。呵呵,咱還要說是整個團隊努力的結果,是吧?不過,既然她都讓我”proud“的了,那我就先接著吧? 您說呢? |