銷售GG在工作群里:“弟兄們,快醒醒,咱現(xiàn)場的
跑馬燈 不跑了?!?/p>還在加班的程序猿:“已經(jīng)查過了,程序沒Bug?!?/p>帶娃玩的硬件攻城獅:“硬件沒問題,這都是照官方Demo弄的。”刷劇的測試MM小聲嘀咕:“我可都是按用例測的,沒出問題啊?!?/p>還是攻城獅有主意:“要不叫FAE過來看看?”“好好好”,意見終于統(tǒng)一了,F(xiàn)AE也該起床換衣服了......作為21世紀(jì)的嵌入式攻城獅,誰還沒見過MCU死機(jī)啊,作為一個二手的程序猿,也見過大大小小的事故現(xiàn)場,于是乎,經(jīng)過半個多月的思想斗爭,我最后做出了一個違背祖宗的決定,把祖?zhèn)靼倌甑拿胤o償?shù)墨I(xiàn)給國家。
1. 現(xiàn)場講故事 弟兄們終于盼來了FAE,拉上手,快坐下,咱們說說知心話:“是你芯片問題吧,快點(diǎn)認(rèn)了哈,這才好給老板交代啊?!?/p>FAE:“GG,這恐怕不好吧,咱先看是不是馬累了,跑不動了,要休息啊。”程序猿:“不會的,我一直給它喂狗的?!?/p>FAE:“沒關(guān)系,我們還是先坐下,從頭捋一把,看看下面這張圖,聽我講講故事吧?!?/p>
2. 故事開始 MCU死機(jī)一定是有原因的,往往有的流于表面,有的隱藏很深,特別是那種偶發(fā)的故障,直讓人掉頭發(fā),遇到這種情況,最擔(dān)心的恐怕就是程序猿了,所以看一個程序猿的水平從脫帽開始,而死機(jī)的問題,需要從查找現(xiàn)象開始。下面的故事分享會按照圖中的現(xiàn)象標(biāo)號來講述,我們先進(jìn)入第一個故事:
1.1.1電源的故事 MCU上電就不能工作,肯定會先看電源,結(jié)果有兩種:
電源有問題:這種情況下,硬件攻城獅應(yīng)該就沖上來了,檢查硬件設(shè)計(jì)或生成問題,比如峰值電源超過設(shè)計(jì)Spec,原理圖/PCB是否設(shè)計(jì)有問題,板子焊接是否正確。 電源沒問題:等等,電源沒問題,怎么還能歸出這個問題呢?當(dāng)然有可能,你見過畫PCB封裝時把Top和Bottom層畫反了的么? 1.1.2 晶體的故事 上了點(diǎn)年紀(jì)的攻城獅應(yīng)該還記得,現(xiàn)在很火的一款MCU早年間(大概07,08年)剛推出的時候,大面積出現(xiàn)晶體不起振的問題,民間傳說已經(jīng)到了拍下桌子就停振的程度。實(shí)際測試發(fā)現(xiàn)只有少數(shù)的日系晶體能完美規(guī)避該問題,以至后來官方給出Application Note(AN2867)去講解晶體的選型,以及該MCU推薦使用的晶體型號。
多年以后的今天,有些MCU已經(jīng)支持檢測到外部晶體失效后自動切換到內(nèi)部時鐘,并觸發(fā)中斷的功能。不少用戶也在產(chǎn)品測試的過程中,加入短接晶體的測試來驗(yàn)證系統(tǒng)運(yùn)行的可靠性。
1.1.3 硬件配置的故事 MCU為了實(shí)現(xiàn)靈活的功能,會提供一些Boot配置管腳,MCU在上電Boot過程中會采樣這些管腳狀態(tài)來進(jìn)入不同的模式,正常啟動后就可以用作普通IO,常見的有從內(nèi)部Flash啟動,SD卡啟動,QSPI啟動,或者進(jìn)入ISP模式等。所以當(dāng)Boot管腳配置出現(xiàn)錯誤時,MCU斷然時無法正常啟動的。前不久就有過這樣一次不同尋常的加班之旅:使用德系MCU的新板子做回來了,該系列MCU不是第一次用,這次只是做了些外設(shè)的改動,不牽扯最小系統(tǒng)的修改,但是,仿真器始終連不上板子,奇怪的是10塊板子中,只有2塊有該問題。硬件GG比較給力,一晚上就發(fā)現(xiàn)了問題:出問題的板子MCU配置管腳電平與默認(rèn)配置不符,該芯片的配置管腳可以定義Debug口Pin的位置,由于錯誤的配置導(dǎo)致連接仿真器的Pin已經(jīng)不具備Debug功能,而錯誤的電平是由于硬件設(shè)計(jì)時,MCU管腳可能不夠用,故將配置管腳也連到FPGA上備用,恰巧出問題的板子FPGA燒的測試固件沒有將未用到的管腳設(shè)置高阻。
有些時候,ROM確實(shí)是一只攔路虎,當(dāng)你發(fā)現(xiàn)配置管腳都正確的時候,芯片居然還不能工作。故事是這樣的,用戶首次使用MCU,根據(jù)自己的需求按照參考設(shè)計(jì)裁剪了一部分電路,打板回來后發(fā)現(xiàn),無法連接仿真器,硬件GG對比參考板測量了所有信號都滿足要求,從芯片內(nèi)部的DCDC輸出也正常,說明芯片已經(jīng)正常跑起來了,最后還是老馬識途,反復(fù)Review原理圖后,大神發(fā)現(xiàn)自己的板子裁掉了EVK的USB電路,由于是新做的板子,flash里沒有可以跑起來的正常代碼,ROM會進(jìn)入串口下載模式,而進(jìn)入該模式前,ROM已經(jīng)關(guān)閉了JTAG接口,因?yàn)橥獠繘]有給USB供電,所以ROM對USB的初始化會失敗而卡死在這里,而解決方案也很簡單,只要給USB VDD供電即可。
這里還有個51單片機(jī)的故事,當(dāng)年這個產(chǎn)品支持熱插拔,背板通過RS485進(jìn)行數(shù)據(jù)通訊,實(shí)際現(xiàn)場發(fā)現(xiàn),新掛設(shè)備后,會有非常小的概率上報(bào)錯誤幀。經(jīng)過仔細(xì)檢查發(fā)現(xiàn),該單片機(jī)默認(rèn)上電會有短暫的ISP模式,該模式下如果總線上有數(shù)據(jù)能對上ISP協(xié)議,單片機(jī)就會發(fā)送數(shù)據(jù),所以插拔過程中可能會出現(xiàn)錯誤的數(shù)據(jù)發(fā)送到RS485總線上形成沖突。解決方案是再生產(chǎn)燒寫的時候配置2個bit位,讓其上電后不進(jìn)入ISP模式即可。
1.1.4 MCU上電的故事 有不少的MCU會在Datasheet中規(guī)定上電的時序的要求,如果設(shè)計(jì)不能滿足該要求,有可能會出現(xiàn)上電無法工作的現(xiàn)象。有些MCU在這種情況下,可以通過外部復(fù)位的方式重新運(yùn)行,這樣可以通過添加外部看門狗來規(guī)避該問題,有些MCU外部Pin的復(fù)位也無法讓它重新正常工作,只能重新上下電,那就必須通過電源設(shè)計(jì)來保證。
敲黑板啦,這張圖并不是單單講上電哦,還有掉電的過程,當(dāng)板子突然掉電,從3.3V掉到1.xV后又重新恢復(fù)到3.3V,那也是有可能無法正常工作的,掉電必須到200mV以下再上電才會比較安全。從圖上也能看出,一般都是要求斜率盡可能的陡一些,上電快一些,當(dāng)然也有一些芯片太快了也不行,具體還要看手冊。有了這個參數(shù)可并不一定能滿足哦,硬件設(shè)計(jì)時,攻城獅從成本考慮往往會選擇不帶使能的LDO,這種芯片基本前級有電壓后級就輸出,所以前級上電慢,輸出就會比較緩。MCU一般標(biāo)稱最低工作電壓1.8V,但實(shí)際在1.1V左右就開始POR了,代碼可能低于1.8V就開始跑起來了,如果此時代碼加大負(fù)載,比如開啟PLL,而此時LDO的輸出能力也有限,VDD就會掉一個個坑,后面就真的是一個坑了......
所以,使用帶使能端的LDO可以讓輸入電壓達(dá)到比較高的值后再打開輸出,以保證后級輸出的線性及斜率夠快。如果真掉到坑里會出現(xiàn)什么結(jié)果呢,送大家?guī)讉€知識點(diǎn):
MCU停機(jī)無法啟動,這是大家都不愿意看到的 MCU偏偏能啟動,還能工作,但是內(nèi)部模塊初始化不完全導(dǎo)致功能異常,最常見的是Memory MCU能正常工作,這種產(chǎn)品往往都是有住持開過光的,售價(jià)應(yīng)該不菲 硬件改不了,那有沒有降低問題概率的軟件workaround呢?能想到的就是軟件上來就把看門狗,BOD/LVD都打開(有些芯片默認(rèn)是關(guān)的),如果能設(shè)置閾值就調(diào)到合理值。還有些電源域比較復(fù)雜的MCU,需要通過PSWITCH管腳來控制內(nèi)部DCDC的輸出,當(dāng)主VDD出現(xiàn)瞬間掉電(假設(shè)200ms后恢復(fù)),外部的復(fù)位電路會對POR進(jìn)行復(fù)位,但是由于時間太短不足以上PSWITCH產(chǎn)生復(fù)位信號去復(fù)位內(nèi)部的DCDC模塊,最后會看到出現(xiàn)VDD回溝后,MCU的DCDC掛了,外部高速晶振也無法起振。簡單粗暴的解決方案就是把POR的復(fù)位信號和PSWITCH接到一起。下面還有個和上電有關(guān)的故事,但和時序無關(guān)。有個應(yīng)用,需要每次上電的時候從外部的SPI Flash中拷貝固件到MCU內(nèi)部的Flash中運(yùn)行,產(chǎn)品本身生成很多年了,突然有個現(xiàn)場發(fā)現(xiàn)好幾個模塊不能正常工作。取回板卡發(fā)現(xiàn),MCU內(nèi)部的一段Flash無法訪問了。查手冊發(fā)現(xiàn),該芯片對內(nèi)部Flash操作時,如果對相同地址進(jìn)行多次編程但不擦寫就會出現(xiàn)該sector無法訪問的問題。出問題的模塊是通過POE進(jìn)行供電的,出問題的現(xiàn)場由于是臨時供電,所以經(jīng)常斷電,每次上電都會進(jìn)行編程操作,由于業(yè)務(wù)邏輯復(fù)雜存在這樣的風(fēng)險(xiǎn)。安全一點(diǎn)的做法應(yīng)該是加入檢驗(yàn)機(jī)制,如果內(nèi)部的Flash固件已經(jīng)是最新的,則不需要反復(fù)燒寫。畢竟內(nèi)部的Flash也有擦寫壽命的。
1.1.5~8 IO口的故事 MCU需要通過IO口來輸入輸出,所以它需要與外部連接。那它就有一些規(guī)范需要遵守,比如極限的電壓、電流,靜電等級
設(shè)計(jì)上要盡量避免IO口先上電的情況,圖中芯片所講的5V tolerant是指VDD > 1.8V的情況,如果實(shí)際情況 < 1.8V呢?廠家肯定是不保的啊。硬件設(shè)計(jì)IO的時候,該做隔離就隔離,別為了省點(diǎn)小錢兒后面再大整改,有些用戶發(fā)現(xiàn)產(chǎn)線上有個別芯片工作正常,但是功耗特別大,快到1A了,拆下來做IV測試發(fā)現(xiàn)個別管腳已經(jīng)燒掉了,仔細(xì)一琢磨,這片子還是不錯的,畢竟沒給燒壞嘍。講到IO就不得不提下熱插拔,絕大多數(shù)的芯片都是不支持的,帶電反復(fù)熱插拔都會對芯片造成一定的損傷,如果確實(shí)無法避免,可以考慮長短針的方式讓電源和GND先接觸,就像USB那樣。
1.2.1 初始化的故事 作為曾經(jīng)的程序猿小白,能Ctrl C來的代碼絕不會多看它一眼,直接就上板跑了。搞了很多的笑話,不同的硬件設(shè)計(jì),用了同一份代碼,有的跑飛了,有的直接就不能連仿真器了,更絕的還會燒MOS??傊?,板子的初始化最好拉硬件攻城獅一起,細(xì)細(xì)的對一遍,或者做一個表格讓硬件GG填好。
針對時鐘初始化,不要使用while()這樣的等待,如果長時間失敗,有可能外部晶體電路有問題,可以切換到內(nèi)部的FRO繼續(xù)工作,如果需要也可以通過對外接口將晶體初始化失敗上報(bào)。
1.2.2 硬件問題的軟件事故 幾年前遇到一個量產(chǎn)的項(xiàng)目,發(fā)現(xiàn)有1ps的板子無法正常工作,回退軟件版本不能解決問題,由于是量產(chǎn)項(xiàng)目,沒有預(yù)留仿真器接口,而且對外只有1個UART通訊接口,還無法正常通訊,單從板子上也看不出什么問題,只有1個LED燈上電后會亮起,通過查看原理圖發(fā)現(xiàn),默認(rèn)LED是不會亮起了,應(yīng)該是軟件點(diǎn)的,或者M(jìn)CU壞掉了。檢查代碼發(fā)現(xiàn),軟件會初始化包括串口和LED在內(nèi)的外設(shè),然后去外部EEPROM中讀取配置信息,如果配置信息有特殊字符,則進(jìn)入測試模式,而測試模式代碼并未實(shí)現(xiàn)任何功能。最終發(fā)現(xiàn),問題是測試人員通過上位機(jī)修改了EEPROM中的內(nèi)容,讓MCU進(jìn)入了沒有任何功能的測試模式。這個問題其實(shí)也可以通過ABA替換測試,發(fā)現(xiàn)問題跟著板子走,從而定位到root cause
1.2.3 BOD/LVD配置 之前已經(jīng)見過這哥倆的重要性了,如果有閾值的配置,也需要結(jié)合自身板子的設(shè)計(jì)來,之前有遇到過用戶把LVD設(shè)置到2.5V產(chǎn)生解復(fù)位,但板子的VDD供電才1.8V。
2.1.1 看門狗的故事 相信有一些攻城獅并不知道,看門狗正常喂也會給MCU咬死.舉例1. 德系品牌MCU內(nèi)部的看門狗默認(rèn)開啟恒復(fù)位功能,芯片第二次產(chǎn)生看門狗復(fù)位后立即鎖定芯片并將IO口保持,這個對PLC的應(yīng)用還是蠻重要的,它可以避免因?yàn)檐浖霈F(xiàn)問題后反復(fù)持續(xù)的復(fù)位而導(dǎo)致被控設(shè)備的誤操作
舉例2. 美系品牌MCU內(nèi)部的看門狗,即使不開window模式,復(fù)位間隔依舊不能太快,必須大于20個bus clock,否則也會咬死。
看門狗使用時切記使用芯片內(nèi)部專用的時鐘,如果使用外部時鐘或者總線時鐘,一旦時鐘掛了,看門狗一樣無法把MCU拉回來。
2.1.2 MCU復(fù)位死機(jī) MCU能復(fù)位就說明它不想死,但往往最終還是架不住掛掉的命運(yùn)。所以,復(fù)位源往往就是死機(jī)的一個前兆,通過它我們就能分析到大致的死因,就好比老西醫(yī)看片子,老中醫(yī)看舌苔。這里我們再介紹一個類似老中醫(yī)的硬件問題:EMC問題經(jīng)測試,由它導(dǎo)致的MCU復(fù)位可以獲取到不同的復(fù)位源,包括電源復(fù)位,Reset Pin復(fù)位,看門狗復(fù)位。導(dǎo)致的死機(jī)也包括HardFault_Handler,BusFault_Handler, UsageFault_Handler等等。考慮到產(chǎn)品的穩(wěn)定可靠,有些MCU支持禁止reset pin或者可以將其復(fù)用為輸出以降低受到干擾后復(fù)位的現(xiàn)象。但是有些MCU不支持該功能,這種情況下就比較考驗(yàn)硬件攻城獅的經(jīng)驗(yàn)了。最后再嘮10塊錢兒的,工藝越先進(jìn),EMC越有挑戰(zhàn)。
2.1.3 Flash編程 大多數(shù)MCU都是內(nèi)置Flash并支持IAP的,使用過程中,還是要注意些好。當(dāng)年美系大廠收購的Cortex-M3的MCU據(jù)說僅支持上百次的擦寫。還有些MCU的等待延時需要設(shè)置大一些,否則也會出現(xiàn)讀寫不一致的情況。相關(guān)的參數(shù)Datasheet一般都會列出:
當(dāng)然,這里面還有一個比較重要的問題就是每個sector的大小,因?yàn)槲覀冎繤lash都需要先擦再寫,所以一些解耦的變量希望各自獨(dú)占一個sector,sector越小其利用率越高。
2.2 要命的低功耗 做低功耗的產(chǎn)品,對設(shè)計(jì)的要求會更高,因?yàn)樗枰?xì)細(xì)的扣每一個模塊甚至每一個pin的功耗。而死機(jī)與無法喚醒本身又非常的相似,處理起來還是比較棘手的。這里僅提供些思路
如果是軟件喚醒后對標(biāo)志判斷出錯導(dǎo)致的問題,功耗往往會比低功耗模式要大。 有些低功耗模式BOD和看門狗是關(guān)著的,所以電源的波動確實(shí)會可能死機(jī)。 電池供電的產(chǎn)品最好硬件上能獲取電量并通知MCU做相應(yīng)的處理。 2.3 程序猿的夢魘 還有些時候,MCU在受到一些外部干擾的時候,會出現(xiàn)一些錯誤,有些錯誤是可以軟件恢復(fù)的,只要clear下寄存器就可以了,有些是不可恢復(fù)的,這個一般要靠看門狗。早幾年遇到一個項(xiàng)目,現(xiàn)場發(fā)現(xiàn)一個板子無法工作,現(xiàn)象是Modbus通訊失敗,但主循環(huán)的LED燈還在閃爍,說明MCU本身沒有死掉,掛上仿真器查看,原來是UART口上出現(xiàn)了幀錯誤,而軟件沒有做相關(guān)的處理導(dǎo)致接收失敗。只要在軟件中添加相關(guān)的中斷服務(wù)函數(shù)即可修復(fù)該Bug。還有些時候,程序猿睡的太晚,迷迷糊糊做出一些Bug導(dǎo)致業(yè)務(wù)出錯,這也是常有的事情,比如使用RTOS時沒考慮優(yōu)先級反轉(zhuǎn),幾個任務(wù)相互卡死......
3. 故事結(jié)束 通過這些故事,我們明白了一個道理,想讓燈兒不停,馬兒就要吃飽。我就是那個老司機(jī):