人機(jī)交互的未來(lái)——自然語(yǔ)音
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著技術(shù)的發(fā)展,人機(jī)交互界面在不斷改進(jìn),從最初的命令行、窗口圖形界面再到觸摸屏,人機(jī)交互的方式變得越來(lái)越人性化。觸摸屏之后,又會(huì)有哪種交互方式帶來(lái)新的變革呢?無(wú)疑,語(yǔ)音技術(shù)最令人期待,因?yàn)樗侨祟愖钭匀坏慕涣鞣绞健T囅?,如果你家的電器設(shè)備都能像你的朋友一樣聽(tīng)懂你的要求,并按照你的要求作出正確的反應(yīng),那該是多么美妙的體驗(yàn)。時(shí)下,這種語(yǔ)音交互技術(shù)正越來(lái)越多地應(yīng)用到我們身邊的電子設(shè)備中。
早在2011年,IBM的超級(jí)電腦“沃森”戰(zhàn)勝美國(guó)智力問(wèn)答節(jié)目《危險(xiǎn)邊緣》的兩名冠軍選手,引起極大轟動(dòng)。從某種程度上說(shuō),沃森已經(jīng)可以和人類實(shí)現(xiàn)自如語(yǔ)音交流,這離不開(kāi)其背后強(qiáng)大的計(jì)算性能。據(jù)介紹,IBM耗費(fèi)數(shù)年才研制出沃森,沃森擁有10組Power 750服務(wù)器,運(yùn)行l(wèi)inux操作系統(tǒng),具有15TB內(nèi)存,2880個(gè)處理器,每秒可進(jìn)行80萬(wàn)億次運(yùn)算,而其體積有10個(gè)冰箱大小。
圖 IBM沃森參加美國(guó)《危險(xiǎn)邊緣》智力問(wèn)答節(jié)目現(xiàn)場(chǎng)
雖然要實(shí)現(xiàn)像沃森這樣的自如地人機(jī)交互還挑戰(zhàn)重重,但這并沒(méi)有阻止語(yǔ)音技術(shù)在特定環(huán)境特定領(lǐng)域的應(yīng)用,尤其是像車(chē)載、移動(dòng)終端這樣的嵌入式設(shè)備中,語(yǔ)音技術(shù)已經(jīng)得到了消費(fèi)者的認(rèn)可。
語(yǔ)音交互在車(chē)載設(shè)備和移動(dòng)終端中發(fā)展迅猛
Strategy Analytics的統(tǒng)計(jì)表明,2012年,中國(guó)原始設(shè)備制造商(OEM)所提供的具備語(yǔ)音人機(jī)接口的信息娛樂(lè)和車(chē)載信息通信系統(tǒng)(telematics)的出貨量達(dá)到300萬(wàn)臺(tái),并預(yù)期在2018年達(dá)到2000萬(wàn)臺(tái)。在北美和歐洲市場(chǎng),帶語(yǔ)音交互功能的車(chē)載設(shè)備應(yīng)用已很普及。福特SYNC系統(tǒng),即專為手機(jī)和數(shù)字媒體播放器配備的福特車(chē)載多媒體通信娛樂(lè)系統(tǒng),是目前車(chē)載系統(tǒng)中采用語(yǔ)音交互技術(shù)的成功的案例,已經(jīng)廣泛應(yīng)用在福特多個(gè)系列汽車(chē)中。搭載SYNC系統(tǒng)后,配合汽車(chē)中控臺(tái)上的顯示屏,可通過(guò)語(yǔ)音控制、兼容并操控便攜式通信/娛樂(lè)設(shè)備等方式,讓駕駛者在開(kāi)車(chē)過(guò)程中更輕松,便捷地實(shí)現(xiàn)諸如語(yǔ)音撥號(hào)、語(yǔ)音播出短信內(nèi)容、語(yǔ)音控制音樂(lè)播放等功能。
圖 駕駛者雙手無(wú)須離開(kāi)方向盤(pán),即可操控SYNC系統(tǒng)(福特??怂怪形腟YNC系統(tǒng))
汽車(chē)之外,移動(dòng)互聯(lián)網(wǎng)終端大概是目前最熱衷采用語(yǔ)音交互的另一類產(chǎn)品,自從蘋(píng)果率先在其iPhone 4中推出智能語(yǔ)音助理應(yīng)用Siri后,Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了Google Now智能語(yǔ)音搜索及問(wèn)答服務(wù),微軟公司也將語(yǔ)音技術(shù)應(yīng)用于其Windows Phone?,F(xiàn)在,幾乎每一家手機(jī)廠商都試圖將語(yǔ)音技術(shù)融于其移動(dòng)產(chǎn)品、應(yīng)用和服務(wù)中。這其中最主要的一個(gè)原因就是這類終端設(shè)備外型小巧,觸摸輸入很不方便,這種情況下,語(yǔ)音交互就變成了一種非常必要的人機(jī)溝通的補(bǔ)充方式。這一點(diǎn),筆者深有感觸,自從使用安卓手機(jī)后,筆者一度不再發(fā)短信(太麻煩),現(xiàn)在,安裝了一個(gè)訊飛語(yǔ)音輸入法后,又開(kāi)始和朋友們短信交流了,語(yǔ)音輸入真是又方便又快捷。
圖 訊飛語(yǔ)音輸入法手機(jī)界面
語(yǔ)音交互需要強(qiáng)大的軟硬件技術(shù)支持
雖然語(yǔ)音技術(shù)給我們帶來(lái)了極大的樂(lè)趣和幫助,但要實(shí)現(xiàn)真正流暢自然的語(yǔ)音交互還需要強(qiáng)大的軟硬件技術(shù)協(xié)作。語(yǔ)音技術(shù)牽涉到語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音評(píng)測(cè)、自然語(yǔ)言理解等多個(gè)方面,而語(yǔ)言的復(fù)雜性、多樣性都為語(yǔ)音技術(shù)的應(yīng)用帶來(lái)多種挑戰(zhàn)。Nuance、科大訊飛、微軟、IBM、Google都在投入力量研發(fā)語(yǔ)音新技術(shù)。其中,作為中文語(yǔ)音技術(shù)的領(lǐng)導(dǎo)者,科大訊飛已占有中文語(yǔ)音技術(shù)市場(chǎng)70%以上市場(chǎng)份額,其訊飛語(yǔ)音云合作伙伴已經(jīng)超過(guò)了10000家,訊飛輸入法也是深入人心。Nuance的語(yǔ)音識(shí)別平臺(tái)在行業(yè)內(nèi)也得到廣泛應(yīng)用,前面提到的福特SYNC系統(tǒng)、蘋(píng)果Siri都采用了Nuance的技術(shù)。前不久,微軟宣布研發(fā)出一種新型語(yǔ)音識(shí)別技術(shù),這項(xiàng)名為“深度神經(jīng)網(wǎng)絡(luò)”的技術(shù),能夠像人類的大腦一樣處理語(yǔ)言行為,據(jù)稱該技術(shù)比目前的語(yǔ)音識(shí)別技術(shù)快2倍。
有了好的語(yǔ)音軟件和算法,還必須要高性能的硬件來(lái)支持。相信,隨著語(yǔ)音技術(shù)的發(fā)展和硬件性能的提高,自然語(yǔ)音將為下一代人機(jī)交互帶來(lái)新的變革。