1952年世界上第一個能識別10個英語數(shù)字發(fā)音的實驗系統(tǒng)的誕生拉開了語音識別技術研究的帷幕。語音識別技術經(jīng)歷了由小詞匯量、孤立詞的識別到大詞匯量、非特定人連續(xù)語音識別的飛躍。今天,iPhone4S內(nèi)置的Siri語音搜索助理更是將語音識別技術發(fā)揮得淋漓盡致。Siri的亮相,實現(xiàn)了語音識別技術的華麗變身。
Siri的問世不僅給語音識別帶來了一場技術革命,更是人機交互、人工智能技術的一個重大突破。
首先,前臺人機交互方面,利用語音識別技術是把用戶的口語轉(zhuǎn)化成文字,其中采用了強大的語音知識庫,需要用到所謂的"云計算"技術。再利用語音合成技術將返回的文字結果轉(zhuǎn)化成語音輸出。
其次,后臺語音處理方面則需要將人工智能與人機交互及智能搜索緊密地聯(lián)系起來,以實現(xiàn)機器要根據(jù)對用戶所說的話進行理解,并快速尋找答案以語音的方式回答用戶。包括了:
①以Google為代表的網(wǎng)頁搜索技術;
②以Wolfram Alpha為代表的知識搜索技術(或者知識計算技術);
③以Wikipedia為代表的知識庫(和Wolfram Alpha不同的是,這些知識來自人類的手工編輯)技術(包括其他百科,如電影百科等);
④以Yelp為代表的問答以及推薦技術。處理用戶的請求,并返回最匹配的結果。
最終實現(xiàn)了Siri可以拋棄繁瑣的語法結構,甚至思維模式也可以混亂,它會結合上下文結構去理解,還會從人類語言史的角度出發(fā),利用人工智能系統(tǒng)去分析,并在絕大多數(shù)情況下領會你的意思。更加人性化的特點是,一旦你開始和Siri進入一段對話,它甚至能理解許多含義模糊或者引申的語義。
智能語音技術是人工智能的研究領域之一,其技術原理涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科。智能語音技術的研究周期長、投入大,使得智能語音行業(yè)具有較高的進入壁壘。
在全球范圍內(nèi),目前已形成寡頭壟斷競爭格局,僅有Nuance、IBM、微軟和Google等少數(shù)廠商具備較強競爭力。早在蘋果推出內(nèi)置Siri語音搜索功能的iPhone4S前,谷歌在2009年就已經(jīng)推出語音搜索軟件,并支持中文,而微軟高管也透露早于蘋果一年研究語音搜索技術,并會在Windows8上內(nèi)置該服務器。我國的科大訊飛與聯(lián)想也正加緊合作開發(fā)本土的語音軟件。
智能語音技術不僅僅只是將程序植入到手機、平板電腦、電視等多個終端設備上,未來智能語音技術的發(fā)展方向必是面向自然語言的處理,而在口語對話中提供自然的語言處理是一個雙重挑戰(zhàn)。首先,你必須識別這些單詞,然后,你必須理解這個意思。第一部分變得更加容易了。但是,第二部分仍然很難解決:意思是根據(jù)上下文確定且難以應付的,人類做的語法分析也不是總是成功的。盡管蘋果的Siri被稱為iPhone4S中語音驅(qū)動的"虛擬助手",但也有用戶稱Siri在使用時故障不斷?磥硪嬲龑崿F(xiàn)人機無障礙地交流,創(chuàng)造一個能力更高的語音助手,還有一段很長的路要走。不過可以肯定的是Siri的問世促使了語音搜索勢必會成為各大廠家的下一個競爭點,智能語音手機、智能電視和智能汽車的時代已經(jīng)來臨。