高信噪比MEMS麥克風(fēng)驅(qū)動人工智能交互
導(dǎo)言
在英飛凌,我們一直堅信卓越的音頻解決方案對于提升消費類設(shè)備的用戶體驗至關(guān)重要。我們堅定不移地致力于創(chuàng)新,在主動降噪、語音透傳、錄音室錄音、音頻變焦和其他相關(guān)技術(shù)方面取得了顯著進步,對此我們深感自豪。作為MEMS麥克風(fēng)的領(lǐng)先供應(yīng)商,英飛凌集中資源改善MEMS麥克風(fēng)的音頻質(zhì)量,為TWS和耳罩式耳機、筆記本電腦、平板電腦、會議系統(tǒng)、智能手機、智能音箱、助聽器甚至汽車等各種消費設(shè)備帶來卓越體驗。
今天,我們生活在一個激動人心的時代,人工智能正在徹底改變?nèi)粘I?,而ChatGPT等工具正在通過直觀的文本和語音交互重新定義工作效率。隨著人工智能系統(tǒng)的不斷進步,傳統(tǒng)的商業(yè)模式、信仰和假設(shè)正在受到挑戰(zhàn)。語音在新興的人工智能生態(tài)系統(tǒng)中扮演什么角色?作為企業(yè)領(lǐng)導(dǎo)者,我們是否需要重新思考我們的信念? 生成式人工智能的興起是否會降低高質(zhì)量語音輸入的重要性,或者高質(zhì)量語音輸入是否會成為廣泛采用人工智能服務(wù)和個人助理的必要條件?
人工智能,從得力助手到最好的朋友
人類不僅會根據(jù)問題的內(nèi)容,也會根據(jù)提問的形式調(diào)整自己的回答,這是很自然的事情。人類的聲音提供了各種線索,可用來判斷提問者的年齡、性別、社會和文化背景以及情緒狀態(tài)。此外,識別所處的環(huán)境(如機場、辦公室、交通或跑步等體育活動)也有助于確定提問者的意圖,并相應(yīng)地調(diào)整答案并更好的對話。
盡管人工智能的能力有了長足的進步,但人們?nèi)匀徽J(rèn)為,基于人工智能的輔助工具缺乏正確預(yù)測人類提問意圖或特定信息將如何被解讀的能力。為了改善人機交互,人工智能在做出修辭選擇時應(yīng)考慮三個關(guān)鍵因素:對聽者的了解、聽者的情緒狀態(tài)和環(huán)境背景。
在許多情況下,僅憑接收到的音頻信號就足以提取有用的信息并做出適當(dāng)?shù)姆磻?yīng)。例如,考慮一下與素未謀面的人進行電話或音頻會議的情況。更重要的是,考慮一下在沒有機會當(dāng)面交流的情況下,一個人在反復(fù)交談后對另一個人的感知是如何發(fā)展和變化的。
最近的研究表明,即使人工智能的語言反應(yīng)風(fēng)格發(fā)生微小的變化,也會導(dǎo)致人工智能的社交能力和個性發(fā)生明顯變化。我們有理由假設(shè),在適當(dāng)?shù)穆曇糨斎胨较拢磥淼娜斯ぶ悄芟到y(tǒng)將能夠作為有效的伙伴發(fā)揮作用,表現(xiàn)出人類朋友的行為,例如詢問并真正傾聽答案,或者只是傾聽并在適當(dāng)?shù)臅r候保留判斷。
人類如何體驗音頻信號?
與任何語言交流一樣,音頻信息也使用語言和文字來傳達思想、情感和觀點。此外,音調(diào)、速度、音量和背景噪音等其他交流元素也會影響對信息的整體感知。
從科學(xué)的角度來看,人耳基于兩個關(guān)鍵因素來感知音頻信號:頻率和聲壓級。聲壓級(SPL)以分貝(dBSPL)為單位,表示圍繞環(huán)境大氣壓振蕩的聲壓幅度。100dBSPL的聲壓級相當(dāng)于割草機或直升機發(fā)出的巨大噪音。聲壓級范圍內(nèi)的最低點(0dB)等效于20μPa的聲壓振蕩,這代表具有最佳聽力的健康年輕人在1kHz頻率下的聽力閾值。所有與語言有關(guān)的人類聲音都屬于100Hz至8kHz的頻段。根據(jù)ISO 226:2023 標(biāo)準(zhǔn),相應(yīng)的人類聽力閾值如圖1所示。
圖1:聽力閾值:根據(jù)ISO 226:2023,人在重復(fù)試驗中做出 50%正確檢測反應(yīng)的聲級
如圖1所示人耳對 500Hz至6kHz 范圍內(nèi)的頻率特別敏感。這些頻率上的任何頻率平衡問題都會對聲音和樂器的感知質(zhì)量產(chǎn)生重大影響。500Hz至4kHz 之間的頻率包含了人類語音中影響語音清晰度的大部分信息。具體來說,2 kHz 左右的頻率尤為重要。5kHz至10kHz 的頻率對音樂非常重要。這些頻率為聲音增添了 "活力 "和 "亮度"。然而,這些頻率包含的語音信息相對較少,只有咝聲,即 "zhi"、"chi"和 "shi"等詞開頭的嘶嘶聲。降低 6-8kHz左右的咝聲會對語音清晰度產(chǎn)生不利影響。
我們大多數(shù)人都知道,人類的聽力閾值會隨著年齡的增長而下降,如圖 2 所示。
圖 2: 該圖顯示了不同年齡段本體正常的男性在單聲道耳機聆聽條件下的聽閾衰減情況。請注意,女性也有類似的圖表,其聽力衰減程度隨年齡增長而略有降低(ISO7029:2017)
值得注意的是,即使是輕度聽力損失(大多數(shù)人的聽力損失發(fā)生在40至50歲之間)也會對個人生活產(chǎn)生重大影響。例如,患有輕度聽力損失的人在嘈雜的環(huán)境中跟不上集體談話可能會遇到困難。此外,他們還可能錯過重要的聽覺提示,如警告信號或警報。
目前的音頻硬件是否足以滿足未來人工智能的需要?
既然我們已經(jīng)對人類如何感知音頻信號有了更好的了解,那么讓我們重新審視一下最初的問題,即當(dāng)前和未來的人工智能需要什么樣的音頻輸入質(zhì)量,才能達到與人類無異的水平。
目前市場上的大多數(shù)消費類設(shè)備都使用MEMS麥克風(fēng)記錄音頻信號。MEMS 麥克風(fēng)是人工智能個人助理的主要音頻捕捉技術(shù),使用人工智能助理技術(shù)的設(shè)備目前已開始在市場上銷售。
MEMS 麥克風(fēng)的錄音質(zhì)量取決于其動態(tài)范圍(dynamic range)。動態(tài)范圍的上限由聲學(xué)過載點 (AOP) 確定,它定義了麥克風(fēng)在高聲壓級時的失真性能。麥克風(fēng)的自噪聲確定了其動態(tài)范圍的下限。衡量麥克風(fēng)自噪聲的方法是信噪比(SNR),它定義了麥克風(fēng)的自噪聲與其捕獲的信號(靈敏度)之間的比率。不過,就我們的討論而言,信噪比有些不合適,因為信噪比的自噪聲使用了A計權(quán)(A-weighting),而A計權(quán)其實是基于人類感知音頻信號的能力來定義的。
如果音頻信號的預(yù)期接收者是人工智能,則相關(guān)的麥克風(fēng)的等效噪聲級ENL(equivalent noise level)是衡量性能的更合適參數(shù),因為它忽略了錄制聲音的人類感知因素。等效噪聲級ENL指的是在沒有外部聲源的情況下麥克風(fēng)產(chǎn)生的信號。等效噪聲級ENL以分貝(dBSPL)為單位,表示與麥克風(fēng)自噪聲相同電壓的聲壓級。
值得注意的是,無論后期采用何種聲音處理方法,低于等效噪聲級ENL的任何聲音信息基本上都會丟失,無法恢復(fù)。因此,如果音頻鏈路中沒有其他元件在信號到達人工智能算法之前引入噪音,麥克風(fēng)ENL就可以被視為人工智能算法的聽覺閾值。應(yīng)該注意的是,這是一個高度簡化的假設(shè),因為音頻鏈中通常還有許多其他組件,包括聲道、防水保護膜和音頻處理鏈路。
請參考圖 3兩種MEMS麥克風(fēng)等效噪聲級ENL曲線與人類聽力閾值的直觀對比。
圖 3:中端和高端MEMS麥克風(fēng)的1/3倍頻程等效噪聲級ENL與典型男性聽力閾值的比較
紅色線條的是信噪比為65dB(A)的麥克風(fēng)的等效噪聲級ENL曲線,麥克風(fēng)集成了防塵設(shè)計。相應(yīng)的MEMS麥克風(fēng)目前已用于多家供應(yīng)商生產(chǎn)的多款高端智能手機中。
下面的紫色線條表示英飛凌最新高端數(shù)字麥克風(fēng)的等效噪聲級ENL曲線,該麥克風(fēng)具有創(chuàng)新的防護設(shè)計,可實現(xiàn)防塵防水效果。這款麥克風(fēng)代表了當(dāng)前的技術(shù)水平,今年才在高端平板電腦上發(fā)布。我們預(yù)計,到今年年底,性能相當(dāng)?shù)柠溈孙L(fēng)將出現(xiàn)在高端智能手機上。值得注意的是,將麥克風(fēng)的自噪聲降低 5-10dB是一項重大成就,特別是考慮到聲壓是使用對數(shù)刻度來表示的。
雖然英飛凌在降低高端MEMS麥克風(fēng)的自噪聲方面取得了顯著進展,但與人耳相比,麥克風(fēng)在辨別低聲壓級的能力方面仍有很大差距。尤其是2kHz附近,對于確保人類聽眾獲得高水平的聲音清晰度至關(guān)重要。年輕人的聽覺能力與英飛凌最先進的麥克風(fēng)之間的差距超過12dBSPL。與目前高端手機中使用的麥克風(fēng)相比,差距明顯更大,達到17dBSPL。需要再次指出的是,這一評估僅考慮了MEMS麥克風(fēng)的自噪聲,并未考慮音頻鏈中會進一步降低整體性能的額外噪聲源。
目前MEMS麥克風(fēng)技術(shù)的局限性在包含大部分人類語音信息的頻率范圍(500Hz - 4kHz)內(nèi)最為明顯。即使是市場上最先進的MEMS麥克風(fēng),其聲音理解能力也只能達到60歲老人的水平。根據(jù)現(xiàn)有數(shù)據(jù),可以合理地預(yù)計,使用最新MEMS麥克風(fēng)技術(shù)的人工智能虛擬助手將出現(xiàn)與老年人類似的聽力障礙,特別是在需要在嘈雜環(huán)境中或遠距離跟讀對話的情況下。
總結(jié)與展望
人工智能的飛速發(fā)展不僅不會減緩,反而會加速MEMS麥克風(fēng)向更高信噪比發(fā)展的趨勢。雖然最新的MEMS麥克風(fēng)還無法與人耳的音頻質(zhì)量相媲美,但英飛凌在降低麥克風(fēng)自噪聲方面取得的進展有利于現(xiàn)有和未來的人工智能。進一步改進音頻鏈路將是增強人工智能能力的關(guān)鍵,例如周圍環(huán)境分辨、語境理解、情感意識、說話者識別和多人對話記錄。有了更好的音頻輸入,人工智能與人類的互動方式將能與人類之間的互動相匹配,甚至不相上下。
此外,人機交互水平的提高將促成新的基于人工智能的用例和服務(wù)。例如,想象一下未來的微軟Copilot,它不僅能總結(jié)團隊會議內(nèi)容,還能提供對交談氛圍的整體評估。未來的人工智能輔助功能或許可以基于人類的語音和音頻,突出顯示重點或按照重要性進行排序。此外,還可以添加輔導(dǎo)功能,為用戶提供有用的建議,幫助他們更好地將未來的對話引向所需的方向。
試想一下,人工智能可以對新的求職者進行第一輪面試,或者僅憑音頻就能識別說話者,其安全級別足以滿足網(wǎng)上購物的需要。
所有這些可能只是未來人工智能的一小部分,未來人工智能的聽力能力將達到或超過人類。憑借我們的增強型 MEMS麥克風(fēng)解決方案,英飛凌很榮幸能夠參與這一激動人心的旅程。
作者:Gunar Lorenz博士 英飛凌科技技術(shù)市場高級總監(jiān)
校對:丁越 英飛凌科技消費、計算與通訊業(yè)務(wù)大中華區(qū) 首席工程師