當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]      自20世紀(jì)80年代以來,語音識(shí)別技術(shù)的研究取得了許多突破性進(jìn)展,特別是基于隱馬爾可夫模型(HMM)的語音識(shí)別技術(shù),目前已趨成熟,成為語音識(shí)別的主流。然而基本型的HMM模型也存在

  
   自20世紀(jì)80年代以來,語音識(shí)別技術(shù)的研究取得了許多突破性進(jìn)展,特別是基于隱馬爾可夫模型(HMM)的語音識(shí)別技術(shù),目前已趨成熟,成為語音識(shí)別的主流。然而基本型的HMM模型也存在一些固有缺陷,這些缺陷除體現(xiàn)在狀態(tài)的持續(xù)時(shí)間沒有直接在模型參數(shù)中反映出來外,還表現(xiàn)在:

 ?。?)采用狀態(tài)輸出獨(dú)立假設(shè),每個(gè)時(shí)刻的輸出僅與所處的狀態(tài)有關(guān),而與以前的輸出沒有關(guān)系,然而實(shí)際語音信號(hào)卻有很強(qiáng)的時(shí)間相關(guān)性,這就影響了HMM模型描述語音信號(hào)幀間相關(guān)性的能力。

 ?。?)連續(xù)HMM模型假定狀態(tài)輸出概率密度函數(shù)為混合高斯分布函數(shù),而實(shí)際的語音信號(hào)分布是非常復(fù)雜的,很難用簡(jiǎn)單的高斯分布的組合形式來表征。為了彌補(bǔ)這些缺陷,許多改進(jìn)的方法被提出來。

  語音識(shí)別技術(shù)是近年來高速發(fā)展的一項(xiàng)技術(shù),由于其重要的理論價(jià)值與廣闊的應(yīng)用前景,受到人們的廣泛重視。語音是一個(gè)復(fù)雜的非線性過程,基于線性系統(tǒng)理論的語音識(shí)別方法的局限性越來越凸顯。近年來,隨著人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、粒子群優(yōu)化算法等非線性理論研究和應(yīng)用的逐漸深入,這些理論已經(jīng)開始獨(dú)立或者相互交叉應(yīng)用到語音識(shí)別領(lǐng)域中。

  語言是人類獲取信息的主要來源之一,不僅是人類與外界交流信息最方便、最有效、最自然的手段,而且也是人與機(jī)器之間進(jìn)行通信的重要工具。無論是人與人之間還是人與之間的語言通信,語音信號(hào)處理,特別是語音信號(hào)數(shù)字處理,都具有特別重要的作用。

  隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,用現(xiàn)代手段研究語音信號(hào)處理技術(shù),使得人們能更加有效的產(chǎn)生、傳輸、存儲(chǔ)和獲得語音信息,這對(duì)于促進(jìn)社會(huì)的發(fā)展具有十分重要的意義

  數(shù)字語音信號(hào)處理,包括三方面內(nèi)容,即語音信號(hào)的數(shù)字表示法,語音信號(hào)數(shù)字處理理論的各種方法和技術(shù)及數(shù)字語音處理理論和技術(shù)在各領(lǐng)域中的實(shí)際應(yīng)用。

  模糊神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用

  神經(jīng)網(wǎng)絡(luò)是在現(xiàn)代科學(xué)研究成果的基礎(chǔ)上提出來模擬人腦結(jié)構(gòu)機(jī)制的一門新興科學(xué),它不是人腦真實(shí)的全面描述,而是這類生物神經(jīng)網(wǎng)絡(luò)的抽象、模擬和簡(jiǎn)化,其目的在于探索人腦的信息加工、存儲(chǔ)和搜索機(jī)制,從而為人工智能和信息處理等學(xué)科的研究開辟新途徑。人工神經(jīng)網(wǎng)絡(luò)就是采用物理可實(shí)現(xiàn)的系統(tǒng)來模擬人腦神經(jīng)細(xì)胞的結(jié)構(gòu)和功能的系統(tǒng)。它是由很多處理單元有機(jī)地連接起來進(jìn)行并行的工作,它的處理單元雖十分簡(jiǎn)單,但其工作卻是“集體”進(jìn)行的,它的信息傳播、存儲(chǔ)方式與神經(jīng)網(wǎng)絡(luò)相似,它沒有運(yùn)算器、存儲(chǔ)器、控制器等這些現(xiàn)代計(jì)算機(jī)的基本單元,而是相同的簡(jiǎn)單處理器的組合,其信息處理是存儲(chǔ)在處理單元的連接上

  模糊邏輯是模仿人腦的不確定性概念判斷、推理思維方式,對(duì)于模型未知或不能確定的描述系統(tǒng),以及非線性、大滯后的控制對(duì)象,應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理,表達(dá)過渡性界限或定性知識(shí)經(jīng)驗(yàn),模擬人腦方式,實(shí)行模糊綜合判斷,推理解決常規(guī)方法難于對(duì)付的規(guī)則型模糊信息問題。模糊邏輯善于表達(dá)界限不清晰的定性知識(shí)與經(jīng)驗(yàn),它借助于隸屬度函數(shù)概念,區(qū)分模糊集合,處理模糊關(guān)系,模擬人腦實(shí)施規(guī)則型推理,解決因“排中律”的邏輯破缺產(chǎn)生的種種不確定問題。

  隨著模糊信息處理技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù)研究的不斷深入,將模糊技術(shù)與神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行有機(jī)結(jié)合,從而構(gòu)造出一種可“自動(dòng)”處理模糊信息的神經(jīng)網(wǎng)絡(luò)或自適應(yīng)模糊系統(tǒng),以成為模糊技術(shù)與神經(jīng)網(wǎng)絡(luò)技術(shù)深入研究和發(fā)展的一種必然趨勢(shì)。神經(jīng)網(wǎng)絡(luò)技術(shù)和模糊技術(shù)各自有自己的優(yōu)點(diǎn),前者以生物神經(jīng)網(wǎng)絡(luò)為模擬基礎(chǔ),試圖在模擬推理及自動(dòng)學(xué)習(xí)方面向前發(fā)展一步,使人工智能更接近人腦的自組織和并行處理功能,它在模式識(shí)別、聚類分析和專家等多方面己顯示了新的前景和新的思路。后者以模糊邏輯為基礎(chǔ),抓住了人類思維的模糊性特點(diǎn),以模仿人的模糊綜合判斷推理來處理常規(guī)的方法難以解決的模糊信息處理的難題。而將模糊技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合,可以有效的發(fā)揮各自的優(yōu)勢(shì)并彌補(bǔ)不足。模糊技術(shù)的特長(zhǎng)在于拓展神經(jīng)網(wǎng)絡(luò)處理信息的范圍和能力,使其不僅能處理精確的信息也能處理模糊信息和其他不精確的信息,不僅能夠?qū)崿F(xiàn)精確的聯(lián)想及映射,還可以實(shí)現(xiàn)不精確的聯(lián)想和映射,特別是模糊聯(lián)想和模糊映射仁。

  語音識(shí)別在實(shí)現(xiàn)過程中通常涉及多種因素,需要同時(shí)考慮。由于計(jì)算量很大,再加上語音信號(hào)的隨機(jī)性,以及我們對(duì)人類聽覺機(jī)理了解甚淺,因此,目前機(jī)器自動(dòng)識(shí)別語音的能力要比人類差得多,尤其是對(duì)非特定人的連續(xù)語音識(shí)別更是如此。用模糊神經(jīng)網(wǎng)絡(luò)模型作為分類器或聚類器,發(fā)展出一些新的語音識(shí)別方法。

  由于模糊神經(jīng)網(wǎng)絡(luò)不僅具有模糊系統(tǒng)中的知識(shí)抽取和表達(dá)能力,適合于表達(dá)模糊或定性的知識(shí),能夠運(yùn)用類似人的思維模式來進(jìn)行推理,也擁有神經(jīng)網(wǎng)絡(luò)有并行計(jì)算、分布式信息存儲(chǔ)、容錯(cuò)能力強(qiáng)以及具備自適應(yīng)學(xué)習(xí)功能的一系列能力。將模糊神經(jīng)網(wǎng)絡(luò)模型用于語音識(shí)別系統(tǒng),該系統(tǒng)具有以下特點(diǎn):。

  1、能夠盡量多的利用了樣本集中的有用信息以實(shí)現(xiàn)多因素綜合評(píng)定,發(fā)揮神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。

  2、能夠很好的引入領(lǐng)域?qū)<业慕?jīng)驗(yàn)知識(shí),利用模糊規(guī)則來指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,使網(wǎng)絡(luò)的訓(xùn)練能夠更符合人的推理習(xí)慣。

  3、對(duì)輸入、輸出形式進(jìn)行特殊的模糊化處理后,可以用有限樣本集含有的信息比較好的、近似真實(shí)分布的反映原有知識(shí)

  傳統(tǒng)的語音識(shí)別和采用模糊神經(jīng)網(wǎng)絡(luò)的語音識(shí)別是有區(qū)別的。在傳統(tǒng)的語音識(shí)別方法中,模式匹配法是在對(duì)語音做過預(yù)處理之后,通過特征參數(shù)的提取及模式匹配完成識(shí)別。由于語音信號(hào)的高度多變性,輸入模式要與標(biāo)準(zhǔn)模式完全匹配是幾乎不可能的。因此,識(shí)別時(shí)要預(yù)先制定好計(jì)算輸入的語音特征模式與各特征模式的類似或距離的規(guī)則,距離最小者就是最類似的模式。而句法模式識(shí)別法當(dāng)認(rèn)為輸入的位置模式屬于某個(gè)對(duì)象時(shí),就要檢查一下輸入模式與識(shí)別對(duì)象的結(jié)構(gòu),當(dāng)與對(duì)象模式結(jié)構(gòu)相同或在某范圍內(nèi)結(jié)構(gòu)一致時(shí),則判定該未知模式就是識(shí)別對(duì)象的語音。模糊神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法與傳統(tǒng)方法的差異在于提取了語音的特征參數(shù)后,不像傳統(tǒng)方法那樣有輸入模式與標(biāo)準(zhǔn)模式的比較匹配,而是靠模糊神經(jīng)網(wǎng)絡(luò)根據(jù)專家知識(shí)或者先驗(yàn)知識(shí),先對(duì)輸入特征數(shù)據(jù)進(jìn)行模糊化產(chǎn)生對(duì)不同規(guī)則的隸屬度,然后根據(jù)標(biāo)準(zhǔn)來調(diào)節(jié)網(wǎng)絡(luò)中大量的連接權(quán)對(duì)輸入模式進(jìn)行非線性運(yùn)算,產(chǎn)生最大興奮的輸入點(diǎn)就代表了輸入模式對(duì)應(yīng)的分類。

  模糊控制于20世紀(jì)六十年代萌芽于美國,七十年代誕生于歐洲,八十年代當(dāng)西方人不太喜歡“模糊理論”時(shí),它卻在日本發(fā)展并廣泛用于家電的自動(dòng)控制,九十年代與神經(jīng)網(wǎng)絡(luò)以來,才得到全球的廣泛認(rèn)可并成為智能系統(tǒng)的一個(gè)重要分支。雖然模糊神經(jīng)網(wǎng)絡(luò)的研究沒有神經(jīng)網(wǎng)絡(luò)長(zhǎng),但由于它結(jié)合了模糊控制和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),現(xiàn)在以廣泛的用于各個(gè)領(lǐng)域。目前模糊神經(jīng)網(wǎng)絡(luò)在語音信號(hào)處理中的應(yīng)用研究十分活躍,其中以在語音識(shí)別方面的應(yīng)用已經(jīng)取得較大的進(jìn)步。同神經(jīng)網(wǎng)絡(luò)相似,模糊神經(jīng)也主要是從聽覺神經(jīng)模型中得到啟發(fā),以便構(gòu)成一些具有類似能力的人工系統(tǒng),使它們?cè)诮鉀Q語音信號(hào)處理(特別是識(shí)別)問題時(shí)能得到較好的性能。研究模糊神經(jīng)網(wǎng)絡(luò)以探索人的聽覺神經(jīng)機(jī)理,改進(jìn)現(xiàn)有語音語音識(shí)別系統(tǒng)的性能,是當(dāng)前語音識(shí)別研究的一個(gè)重要方向。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉