不用開口,AI將大腦活動轉(zhuǎn)化為文本,單句錯詞僅3%
繼喉嚨皮膚震動就能讀出想說的話之后,閱讀大腦思想再往前進(jìn)一步,即使不用說話,AI系統(tǒng)就能將大腦活動轉(zhuǎn)化成文本內(nèi)容。
目前,該系統(tǒng)已經(jīng)可以檢測到有人大聲說話時的神經(jīng)模式,離最終目標(biāo)的實現(xiàn)還有很長一段距離,但是專家表示,最終成型的系統(tǒng)可以幫助無法說話或打字的患者,例如患有一些癥狀的患者,進(jìn)行交流。
加州大學(xué)舊金山分校Joseph Makin博士及其他研究者在雜志上發(fā)表了研究,文章揭示了他們?nèi)绾瓮ㄟ^招募四名將電極陣列植入其大腦中以監(jiān)測癲癇發(fā)作的參與者開發(fā)這一系統(tǒng)的。Joseph Makin表示:“這可能是‘語言假肢’的基礎(chǔ)?!?/p>
論文鏈接:
https://www.nature.com/articles/s41593-020-0608-8
實驗參與者被要求多次朗讀50個固定句子,比如“蒂娜·特納是流行歌手”和“那些小偷偷走了30件珠寶”,研究者們跟蹤了他們講話時的神經(jīng)活動。這些數(shù)據(jù)隨后被輸入到機(jī)器學(xué)習(xí)算法中,系統(tǒng)能將每個口述句子的大腦活動數(shù)據(jù)轉(zhuǎn)換為數(shù)字字符串。
為了確保數(shù)字僅與語音方面有關(guān),系統(tǒng)將根據(jù)大腦活動數(shù)據(jù)的小塊預(yù)測的聲音與實際記錄的音頻進(jìn)行了比較,然后將數(shù)字字符串輸入用來轉(zhuǎn)換為單詞序列的系統(tǒng)的第二部分。
萬事開頭難,開始時系統(tǒng)會顯示不少廢話,但當(dāng)系統(tǒng)將單詞的每個序列與實際朗讀的句子進(jìn)行比較時,通過不斷改善,從而了解了數(shù)字串與單詞之間的關(guān)系以及哪些單詞趨于彼此相連。團(tuán)隊接下來對系統(tǒng)進(jìn)行了測試,僅從語音過程中的大腦活動生成書面文本。
系統(tǒng)并不完美,“那些音樂家很合拍”被解釋為“菠菜是著名的歌手”,而“一卷電線躺在墻上”變成“威爾賓會戴黃色百合花”。但是,新系統(tǒng)的準(zhǔn)確性遠(yuǎn)遠(yuǎn)高于以前的方法,盡管準(zhǔn)確度因人而異,但對于一名參與者,平均每個句子僅需要糾正3%的單詞,高于專業(yè)人類筆錄者5%的單詞錯誤率。但是,團(tuán)隊擔(dān)心該算法僅能處理少量句子。
Makin說:“如果使用50個句子之外的單詞,解碼會變得很糟糕?!彼a充說,系統(tǒng)可能依賴于學(xué)習(xí)特定句子,從大腦活動中識別單詞以及識別英語一般模式的組合 。
研究小組還發(fā)現(xiàn),根據(jù)一個參與者的數(shù)據(jù)對算法進(jìn)行訓(xùn)練意味著最終用戶需要的訓(xùn)練數(shù)據(jù)更少,這可以減少對患者的繁瑣訓(xùn)練。
馬斯特里赫特大學(xué)的專家Christian Herff博士沒有參加這項研究,他認(rèn)為這項研究很有意思,因為系統(tǒng)只為每個參與者使用不到40分鐘的訓(xùn)練數(shù)據(jù),并且句子的收集數(shù)量有限,而不是需要幾個小時的數(shù)百萬數(shù)據(jù)?!斑@讓他們達(dá)到了迄今為止尚未達(dá)到的準(zhǔn)確性水平?!?/p>
但是該系統(tǒng)尚不能用于許多嚴(yán)重殘疾的患者,因為該系統(tǒng)依賴于大聲說出句子的人記錄的大腦活動。他說:“當(dāng)然,這是一項了不起的研究,但是那些人也可以使用'OK Google就好了',這不是思想的翻譯,而是言語中涉及的大腦活動。”
Herff說,人們現(xiàn)在還不必?fù)?dān)心別人會讀懂他們的想法,這必須要植入大腦電極,而想象中的語音與內(nèi)在的聲音大不相同。 謝菲爾德大學(xué)腦機(jī)接口專家Mahnaz Arvaneh博士認(rèn)為,現(xiàn)在考慮道德問題很重要。她說:“我們距離機(jī)器能夠讀懂我們的思想的距離仍然非常非常遙遠(yuǎn)。但這并不意味著我們不應(yīng)該考慮它,我們也不應(yīng)該計劃它?!?/p>