當(dāng)前位置:首頁 > 公眾號精選 > AI科技大本營
[導(dǎo)讀]編譯?|禾木木出品|?AI科技大本營(ID:rgznai100)語言交流是人類互動一種自然的方式,隨著語音技術(shù)的發(fā)展,我們可以與設(shè)備以及未來的虛擬世界進行互動,由此虛擬體驗將于我們的現(xiàn)實世界融為一體。然而,語音技術(shù)僅適用于全世界數(shù)千種語言中的一小部分?;谟邢迾?biāo)記數(shù)據(jù)的少樣本學(xué)習(xí)...


編譯 | 禾木木出品 | AI科技大本營(ID:rgznai100)語言交流是人類互動一種自然的方式,隨著語音技術(shù)的發(fā)展,我們可以與設(shè)備以及未來的虛擬世界進行互動,由此虛擬體驗將于我們的現(xiàn)實世界融為一體。
然而,語音技術(shù)僅適用于全世界數(shù)千種語言中的一小部分?;谟邢迾?biāo)記數(shù)據(jù)的少樣本學(xué)習(xí),甚至無人監(jiān)督的語音識別是有幫助的,但這些方法的成功取決于自監(jiān)督模型的質(zhì)量。近日,Meta 正式發(fā)布 XLS-R ——一套用于各類語音任務(wù)的新型自監(jiān)督模型。XLS-R 由海量公共數(shù)據(jù)訓(xùn)練而成,能夠?qū)鹘y(tǒng)多語言模型的語言支持量增加兩倍以上。而 XLS-R 作為元宇宙社交中必不可少的一環(huán),可以幫助母語不同的人在元宇宙中直接對話。為了能夠通過單一模型實現(xiàn)對多種語言的理解,Meta 對 XLS-R 進行了微調(diào),使它能夠執(zhí)行語音識別、語音翻譯和語言識別等功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 語音識別基準(zhǔn)測試,CoVoST-2 的外語到英文翻譯基準(zhǔn)測試,以及 VoxLingua107 語言識別基準(zhǔn)測試中都有了先進的水平。為了進一步使這些能夠被廣泛地訪問,Meta 與 Hugging Face 聯(lián)手發(fā)布了模型在 Github 上。https://huggingface.co/spaces/facebook/XLS-R-2B-22-16


XLS-R 工作原理


XLS-R 基于 wav2vec 2.0 訓(xùn)練集上接受了超過 436,000 小時的公開語音錄音訓(xùn)練,這是對語音表示進行自監(jiān)督學(xué)習(xí)的方法。這樣的訓(xùn)練量已經(jīng)達到去年發(fā)布的最好的模型 XLSR-53 的 10 倍。利用從會議記錄到有聲讀物等不同來源的語音數(shù)據(jù),XLS-R 的語言已擴展到 128 種,涵蓋的語言數(shù)量是錢袋模型的近2.5倍。Meta 在4種主要多語言語音識別測試中對 XLS-R 做出評估,發(fā)現(xiàn)在測試的 37 種語言中,它的表現(xiàn)超越先前的模型工作;具體來說,在 BABEL 的 5 種語言、CommonVoice 的 10 種語言、MLS 的 8 種語言和 VoxPopuli 的 14 種語言上進行了嘗試。BABEL 上的單詞錯誤率基準(zhǔn)測試結(jié)果。XLS-R 較前代模型實現(xiàn)了顯著改進。Meta 還評估了語音翻譯模型,將錄音直接翻譯成另一種語言。為了打造一套能夠執(zhí)行多種任務(wù)的模型, Meta 同時在 CoVoST-2 基準(zhǔn)測試的數(shù)個不同翻譯方向上對 XLS-R 進行了微調(diào)。最后結(jié)果是能夠在英語與多達 21 種語言之間實現(xiàn)內(nèi)容互譯。在使用 XLS-R 對英語以外的其他語言進行編碼時,獲得了顯著的改進,這也是多語言語音表達領(lǐng)域的一次突破。XLS-R 在低資源語言學(xué)習(xí)中實現(xiàn)了顯著改進,例如印尼語到英語的翻譯,其中 BLEU 準(zhǔn)確率平均翻了一番。BLEU 指標(biāo)的提升是指模型給出的自動翻譯結(jié)果與處理同一內(nèi)容的人工翻譯結(jié)果間重合度更高,代表著模型在改進口語翻譯能力方面邁出了一大步。以 BLEU 指標(biāo)衡量的自動語音翻譯準(zhǔn)確率,其中較高值表示 XLS-R 從高資源語言(例如法語、德語)、中資源語言(例如俄語、葡萄牙語)或低資源語言(例如泰米爾語、土耳其語)語音記錄翻譯至英語時的準(zhǔn)確率。



結(jié)語

XLS-R 表明,擴展跨語言預(yù)訓(xùn)練可以進一步提高低資源語言的性能。它不僅提高了語音識別的性能,還能將外語到英語的語音翻譯的準(zhǔn)確性提高了一倍以上。XLS-R 是朝著能夠理解多種不同語言單一模型邁出的重要一步,它是所知道的利用公共數(shù)據(jù)進行多語言預(yù)訓(xùn)練的最大努力。Meta 相信這個方向?qū)⑹箼C器學(xué)習(xí)應(yīng)用程序更好地理解所有人類語音并促進進一步研究,使語音技術(shù)在全球范圍內(nèi)更容易使用,尤其是在服務(wù)欠缺的人群中。Meta 將通過不斷開發(fā)新方法來從較少的監(jiān)督中學(xué)習(xí),并將方法擴展到全球 7,000 多種語言,實現(xiàn)算法的持續(xù)更新。參考鏈接:https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/




本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

濟南2022年10月14日 /美通社/ -- 近日,浪潮新基建成功通過CMMI(軟件能力成熟度集成模型)三級認證并正式獲得資質(zhì)證書。繼2021年組建后,僅一年時間就斬獲全球軟件領(lǐng)域最權(quán)威的認證之一,標(biāo)志著浪潮新基建在技術(shù)...

關(guān)鍵字: 軟件 新基建 智慧城市 模型

北京2022年10月13日 /美通社/ -- 近日,中科寒武紀科技股份有限公司(以下簡稱"寒武紀")的思元370系列智能加速卡與浪潮AIStation智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺完成兼容性適配認證,...

關(guān)鍵字: STATION 加速卡 AI 模型

蘇州2022年10月13日 /美通社/ -- 北京時間2022年10月13日,開拓藥業(yè)(股票代碼:9939.HK),一家專注于潛在同類首創(chuàng)和同類最佳創(chuàng)新藥物研發(fā)及產(chǎn)業(yè)化的生物制藥公司,宣布其聯(lián)合美國德克薩斯大學(xué)...

關(guān)鍵字: 模型 LM EMI PD

(全球TMT2022年10月11日訊)近日,昆侖芯(北京)科技有限公司的第二代云端通用人工智能計算處理器昆侖芯2代AI芯片及AI加速卡與飛槳完成III級兼容性測試,兼容性表現(xiàn)良好。 產(chǎn)品兼容性證明 本次...

關(guān)鍵字: 人工智能 加速卡 處理器 模型

來見識下這位95后的手工大神。據(jù)媒體報道,山東青島一女生耗時一個月,使用10斤巧克力,復(fù)刻了《武林外傳》里的小院,堪稱神還原。女孩介紹,大大小小的物件超過200件,每一個小物件都是用巧克力、翻糖和糯米紙做的,模型長度大概...

關(guān)鍵字: 模型

北京2022年9月27日 /美通社/ -- 近期,為助力中小企業(yè)創(chuàng)新發(fā)展,承接"828 B2B企業(yè)節(jié)"成就好生意,成為好企業(yè)的愿景。軟通動力著力打造了"917轉(zhuǎn)型"企動日主題峰會,會上發(fā)布了一系列新品和解決方案,面向多個...

關(guān)鍵字: DM 數(shù)字化 大數(shù)據(jù) 模型

濟南2022年9月23日 /美通社/ -- 近日,浪潮城市信息模型( CIM)基礎(chǔ)平臺V1.0正式發(fā)布。該產(chǎn)品綜合應(yīng)用數(shù)字孿生、物聯(lián)網(wǎng)、5G、區(qū)塊鏈、大數(shù)據(jù)等技術(shù),實現(xiàn)城市治理各環(huán)節(jié)全程管控、智能協(xié)同,強化城市...

關(guān)鍵字: 模型 智慧城市 指揮調(diào)度 BSP

(全球TMT2022年9月23日訊)近日,浪潮城市信息模型(CIM)基礎(chǔ)平臺V1.0正式發(fā)布。該產(chǎn)品綜合應(yīng)用數(shù)字孿生、物聯(lián)網(wǎng)、5G、區(qū)塊鏈、大數(shù)據(jù)等技術(shù),實現(xiàn)城市治理各環(huán)節(jié)全程管控、智能協(xié)同,強化城市全生命周期管理,助...

關(guān)鍵字: 模型 編碼 大數(shù)據(jù) 區(qū)塊鏈

深圳2022年9月16日 /美通社/ -- 針對聯(lián)邦學(xué)習(xí)全局模型的版權(quán)保護問題,微眾銀行AI團隊聯(lián)合上海交通大學(xué)在人工智能學(xué)術(shù)期刊《IEEE模式分析與機器智能匯刊》(IEEE T-PAMI,IEEE Trans...

關(guān)鍵字: 模型 IP 神經(jīng)網(wǎng)絡(luò) IEEE

上海2022年9月6日 /美通社/ -- 9月3日上午,《"東數(shù)西算"戰(zhàn)略下綠色智算中心產(chǎn)業(yè)發(fā)展研究報告》重磅發(fā)布。該報告由國家信息中心與燧原科技深度合作,聯(lián)合慶陽市人民政府、之江實驗室、中國能建共同...

關(guān)鍵字: 數(shù)字經(jīng)濟 安防 模型 編寫

AI科技大本營

113 篇文章

關(guān)注

發(fā)布文章

編輯精選

技術(shù)子站

關(guān)閉