當(dāng)前位置:首頁 > 消費(fèi)電子 > 消費(fèi)電子
[導(dǎo)讀]隨著物聯(lián)網(wǎng)的發(fā)展,對(duì)家庭電器的控制將會(huì)有更多的發(fā)展,而語音作為一種自然簡單的方法將是一種有效便捷的控制方式。如果可以把語音控制與安全控制結(jié)合起來,系統(tǒng)就變得更自然直接更人性化了。

隨著物聯(lián)網(wǎng)的發(fā)展,對(duì)家庭電器的控制將會(huì)有更多的發(fā)展,而語音作為一種自然簡單的方法將是一種有效便捷的控制方式。如果可以把語音控制與安全控制結(jié)合起來,系統(tǒng)就變得更自然直接更人性化了。

語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高新技術(shù)。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語音識(shí)別目前主要應(yīng)用在車聯(lián)網(wǎng)、智能翻譯、智能家居、自動(dòng)駕駛方面。

語音識(shí)別應(yīng)用場(chǎng)景有哪些

1、語音輸入

擺脫生僻字和拼音障礙,使用語音即時(shí)輸入。略帶口音的普通話、粵語四川話方言、英文,均可有效識(shí)別,并可根據(jù)句意自動(dòng)糾錯(cuò)、自動(dòng)斷句添加標(biāo)點(diǎn),讓輸入更快捷,溝通交流更順暢

2、 語音搜索

搜索內(nèi)容直接以語音的方式輸入,應(yīng)用于網(wǎng)頁搜索、車載搜索、手機(jī)搜索等各種搜索場(chǎng)景,解放雙手讓搜索更加高效,適用于視頻網(wǎng)站、智能硬件、手機(jī)廠商等多個(gè)行業(yè)

3、 語音指令

無需手動(dòng)操作,可以通過語音直接對(duì)設(shè)備或者軟件發(fā)布指令,控制操作,適用于智能硬件、車載系統(tǒng)、機(jī)器人、手機(jī)APP、游戲等多個(gè)領(lǐng)域

4、 社交聊天

社交聊天時(shí)直接用語音輸入的方式轉(zhuǎn)成文字,讓輸入更加便捷;或者在收到語音消息不適合播放時(shí)可以轉(zhuǎn)為文字進(jìn)行查看,滿足更多的聊天場(chǎng)景

5、 游戲娛樂

游戲中聊天必不可少,雙手無法打字,語音輸入可以將語音聊天轉(zhuǎn)為文字,讓用戶在操作的同時(shí)也可直觀看到聊天內(nèi)容,多樣化滿足用戶聊天需求

語音識(shí)別的作用

技術(shù)應(yīng)用多樣化。盡管困難重重,但這并不會(huì)阻止技術(shù)的發(fā)展,時(shí)代巨輪的前進(jìn)。比如在語音識(shí)別率方面,目前一些主流平臺(tái)的識(shí)別率可以達(dá)到 95%以上,這無疑為語音技術(shù)落地提供了大大的技術(shù)支持。目前,語音技術(shù)應(yīng)用領(lǐng)域呈現(xiàn)多元化趨勢(shì),智能家電、智慧交通、可穿戴設(shè)備

智能家居產(chǎn)品。隨著人們生活水平的提高,傳統(tǒng)家電產(chǎn)品也開始貼上智能化的標(biāo)簽,而其中語音技術(shù)的應(yīng)用最為常見,比如智能音箱、智能門鎖、智能電視等產(chǎn)品,都離不開語音技術(shù)加持。就拿當(dāng)前備受追捧的智能音箱來說,除了音樂播放功能之外,還具備著獨(dú)特的語音交互功能,互動(dòng)性、娛樂性大大提升,這都?xì)w功于其智能語音技術(shù)。

聊天機(jī)器人。機(jī)器人如果僅僅對(duì)語言進(jìn)行識(shí)別還不夠,還需要準(zhǔn)確地理解并給出反應(yīng),這種反應(yīng)還不只是局限在語音上,未來可能還將擴(kuò)展到肢體動(dòng)作、面部表情,甚至是真正意義上的情緒。

語音識(shí)別技術(shù)的基本原理可以概括為以下幾個(gè)步驟:

語音活動(dòng)檢測(cè):首先,系統(tǒng)需要檢測(cè)語音信號(hào)的存在,并區(qū)分出語音信息與其他背景噪音或干擾信號(hào)。這類似于在一段聲音中識(shí)別出孫悟空的師傅被妖怪擄走的信號(hào)。

降噪處理:接著,系統(tǒng)會(huì)去除語音信號(hào)中的噪音,如環(huán)境噪音、錄制設(shè)備的聲音等,以確保后續(xù)處理的是純凈的語音信息。這個(gè)過程可以比作孫悟空排除妖怪的障眼法,準(zhǔn)確地定位到妖怪的洞府。

特征提?。涸谌コ胍艉?,系統(tǒng)會(huì)提取語音信號(hào)的特征值,如頻率、能量等,這些特征值用于后續(xù)的語音識(shí)別過程。這個(gè)過程類似于孫悟空收集妖怪的特征,以便制定行動(dòng)計(jì)劃。

模型訓(xùn)練:包括聲音模型訓(xùn)練和語言模型訓(xùn)練。聲音模型訓(xùn)練通過大量語音數(shù)據(jù),使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)發(fā)音的規(guī)律,而語言模型訓(xùn)練則通過文本數(shù)據(jù),學(xué)習(xí)語言的結(jié)構(gòu)和規(guī)律,如詞與詞之間的組合模式。

識(shí)別過程:最后,系統(tǒng)根據(jù)訓(xùn)練得到的模型,對(duì)輸入的語音信號(hào)進(jìn)行解碼,推斷出最可能的文字結(jié)果。這個(gè)過程類似于學(xué)習(xí)一門新語言,通過拆解單詞、理解其意義,并最終能夠流利地使用這門語言進(jìn)行溝通。

綜上所述,語音識(shí)別技術(shù)是一種模式識(shí)別系統(tǒng),它包括特征提取、模式匹配、參考模式庫等基本單元,通過這些步驟,機(jī)器能夠?qū)⑷祟惖恼Z音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本。語音識(shí)別主要基于深度學(xué)習(xí)的技術(shù),其整個(gè)過程可以大致劃分為聲音信號(hào)處理、特征提取、聲音模型訓(xùn)練、語言模型訓(xùn)練和識(shí)別這幾個(gè)關(guān)鍵步驟。

首先,聲音信號(hào)處理。因?yàn)槲覀儼l(fā)出的聲音是連續(xù)的聲音波,為了方便后續(xù)處理,我們需要對(duì)這些連續(xù)信號(hào)進(jìn)行分段處理,這就是語音信號(hào)的預(yù)處理工作。要把連續(xù)的聲音切分成一小段一小段的,每一小段也叫一幀。

然后,進(jìn)行特征提取。這是提取出每一幀聲音的特征值,如頻率、能量等等。當(dāng)我們有了這些特征值,我們就可以把他們送到神經(jīng)網(wǎng)絡(luò)中去訓(xùn)練,然后用模型來進(jìn)行預(yù)測(cè)。

隨后是聲音模型訓(xùn)練,這是為了獲取發(fā)音的規(guī)律。通過大量的語音數(shù)據(jù),用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到一個(gè)模型,這個(gè)模型能夠根據(jù)語音的特征,預(yù)測(cè)出這段語音最可能的發(fā)音。

在聲音模型訓(xùn)練之后,就是語言模型訓(xùn)練。語言模型主要是為了獲取語言的規(guī)律,比如哪些詞經(jīng)常會(huì)在一起出現(xiàn),哪些詞后面會(huì)跟哪些詞等等。通過大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,得到一個(gè)能夠預(yù)測(cè)語句合理性的模型。

最后,識(shí)別就是根據(jù)聲音模型和語言模型,對(duì)輸入的語音進(jìn)行解碼,得出最可能的文字結(jié)果。

這個(gè)過程就好比我們學(xué)習(xí)一門新的語言。首先我們會(huì)把這種語言拆解成單詞,逐個(gè)學(xué)習(xí)并理解其意思。然后通過對(duì)該語言的熟練掌握,我們能夠理解并使用這門語言進(jìn)行溝通。語音識(shí)別無非就是讓機(jī)器做同樣的事情,只不過機(jī)器學(xué)習(xí)的方式是訓(xùn)練數(shù)據(jù)模型和神經(jīng)網(wǎng)絡(luò)。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉