音視頻新技術可以讓聲音返老還童
聲音也能返老還童?當垂垂老矣語音混沌時,借助受損語音修復技術就能讓聲音完美再現(xiàn),重返青春。記者近日從天津大學獲悉,該校自動化與信息工程學院張濤副教授帶領團隊,在音視頻智能分析中實現(xiàn)重大突破,借助大數(shù)據(jù)和神經(jīng)網(wǎng)絡等人工智能技術首次實現(xiàn)了受損聲音的修復和再現(xiàn)。
據(jù)介紹,老年人的喉粘膜萎縮以及聲帶老化、聲帶肌松弛等會導致出現(xiàn)發(fā)音無力、音質下降等問題,另外聲帶出現(xiàn)一些病變如萎縮或肥厚、聲帶長肉結或息肉等都可能導致聲音改變、沙啞。對由于疾病或器官衰老而引起的語音受損研究,目前大多著眼于病理嗓音的檢測和識別,對于受損語音帶來的交流方面的問題研究則相對較少。
隨著音頻場景智能分析應用越來越廣,科學家開始借助大數(shù)據(jù)和神經(jīng)網(wǎng)絡等人工智能技術模擬修復受損聲音。張濤主持的天津大學-TI DSP聯(lián)合實驗室也主要聚焦于音頻場景智能分析和受損語音信號修復兩個方面。在對因衰老、病變等因素造成的聲帶受損語音進行修復過程。
張濤團隊獨辟蹊徑,提出了一種新型截取信號的窗函數(shù),可以對因病變、衰老造成的聲帶發(fā)聲受損進行有效修復。這一修復研究主要借助嗓音的聲學特征及其動力學非線性特征參數(shù)等,通過結合神經(jīng)網(wǎng)絡等技術建立激勵和聲道模型對修復的嗓音特征重新合成,從而大大提高了受損語音的可懂度。目前,該實驗室研究已經(jīng)申請國家專利并被采納為國家技術標準。