無處不在的語音識別,讓物聯(lián)網(wǎng)用戶體驗(yàn)再升級
隨著語音技術(shù)的不斷發(fā)展,語音識別已在多個(gè)領(lǐng)域廣泛利用。我們體驗(yàn)過語音輸入、語音控制及語音撥號等應(yīng)用的便捷,但是也經(jīng)常吐槽其辨識度的瓶頸。盡管如此當(dāng)下火熱的可穿戴設(shè)備廠商也力拼此項(xiàng)技術(shù),顯然,語音識別被認(rèn)為是未來物聯(lián)網(wǎng)領(lǐng)域的基礎(chǔ)需求,甚至將會無處不在。
據(jù)中國智能語音產(chǎn)業(yè)聯(lián)盟發(fā)布的《2013中國智能語音產(chǎn)業(yè)發(fā)展白皮書》稱,智能語音已進(jìn)入快速應(yīng)用階段。去年,中國智能語音產(chǎn)業(yè)規(guī)模約為8.6億元,帶動相關(guān)產(chǎn)業(yè)產(chǎn)值100億元,預(yù)計(jì)到2017年,將帶動相關(guān)產(chǎn)業(yè)規(guī)模增長1000億元,占全球相關(guān)產(chǎn)業(yè)規(guī)模的比重將由去年的5.6%增至17.1%。
上述針對語音產(chǎn)業(yè)市場的數(shù)據(jù)并不是特別可信,僅科大訊飛剛剛公布的2013年年報(bào)顯示,實(shí)現(xiàn)營業(yè)總收入125370.78萬元,同比增長59.92%,實(shí)現(xiàn)利潤總額32058.40萬元。試問,上述白皮書的內(nèi)容如何讓人信服。
增強(qiáng)用戶體驗(yàn),云平臺仍需完善
以目前的技術(shù),語音識別在實(shí)驗(yàn)室條件下能達(dá)到非常高的準(zhǔn)確率,但實(shí)際應(yīng)用中往往遇到環(huán)境噪音、方言口音、話題專業(yè)性等問題,最終影響用戶體驗(yàn),因此,技術(shù)的穩(wěn)定和成熟程度是語音識別的創(chuàng)業(yè)門檻。梁家恩認(rèn)為,要想把語音識別系統(tǒng)做好,除了有強(qiáng)大的算法以外,還要有大量的數(shù)據(jù)。他坦言,與行業(yè)老大科大訊飛相比,云知聲的數(shù)據(jù)量要少得多,不過,通過建立公有云平臺,可以不斷積累數(shù)據(jù),從而優(yōu)化系統(tǒng)。
云知聲聯(lián)合創(chuàng)始人、CEO梁家恩表示相比傳統(tǒng)做2B的語音識別公司,云知聲的基因更偏向于互聯(lián)網(wǎng),通過免費(fèi)的公有云語音平臺帶動私有云服務(wù)的定制,還為日后進(jìn)一步商業(yè)化埋下伏筆。
具體而言,公有云平臺提供大詞匯量連續(xù)語音在線識別,開發(fā)者不論大小,都可以通過API直接調(diào)用公有云服務(wù)。事實(shí)上,云知聲的客戶里80%以上都是中小企業(yè)和個(gè)人開發(fā)者,這恰好與深耕大客戶服務(wù)的科大訊飛形成了一種差異和互補(bǔ)。不過,這并不影響大企業(yè)對云知聲的青睞。梁家恩坦言,包括樂視、錘子RO M,其實(shí)一開始找的都是科大訊飛,云知聲之所以最終能吸引到他們,除了技術(shù)達(dá)到一定水準(zhǔn)以外,快速的執(zhí)行力是最大的優(yōu)勢。“以跟搜狗的合作為例,從第一次接觸,到搜狗語音助手的發(fā)布只花了兩周時(shí)間,而一般來說要洽談幾個(gè)月。”這些大企業(yè)本身的用戶量很大,一下子給公有云平臺帶來了大量數(shù)據(jù)。
有了公有云作為基礎(chǔ),云知聲進(jìn)一步探索私有云的路徑。梁家恩解釋,公有云平臺提供的只是基礎(chǔ)的語音技術(shù)服務(wù),而事實(shí)上,語音交互跟企業(yè)業(yè)務(wù)的關(guān)聯(lián)性很強(qiáng),對于那些對語音有剛需的企業(yè)來說,公有云并不足以完全滿足需求,還要根據(jù)企業(yè)特有的應(yīng)用環(huán)境優(yōu)化識別模型。比如云知聲與樂視的合作,就是將語音助手根據(jù)電視領(lǐng)域進(jìn)行了深度定制和融合,使得效果更貼合智能電視的實(shí)際使用。
智能手表將綁定語音識別
智能手表屏幕較小,使用額外的S-pen一類的輔助工具也并不現(xiàn)實(shí),在當(dāng)前條件下看,唯有依靠語音輸入了。語音輸入看上去是個(gè)不大的基礎(chǔ)應(yīng)用,實(shí)現(xiàn)起來卻需要非常復(fù)雜的技術(shù)能力,已經(jīng)涉及到人工智能AI的范疇,而且這個(gè)技術(shù)已經(jīng)進(jìn)化了幾十年,似乎還沒得以大規(guī)模商用,可見其開發(fā)難度。
Gear中內(nèi)置了三星自己的S-Voice,另外也和百度合作,將百度語音助手預(yù)裝了進(jìn)去??磥戆俣扰c三星的關(guān)系相當(dāng)不一般,前有百度云,后有語音助手,對看重安卓更甚iOS的百度,支持力度相當(dāng)大。不過,還是有理由相信,百度語音助手的技術(shù)實(shí)力已達(dá)到三星所期望的程度,預(yù)裝其語音產(chǎn)品,可以給智能手表帶來更好的用戶體驗(yàn)。語音有可能是智能手表的唯一輸入方式,在這方面無法做到準(zhǔn)確,易用,快捷,是很難讓用戶買單的,會成為其發(fā)展瓶頸。
其他一些語音識別工具,如搜狗和科大訊飛等產(chǎn)品,是不是也能做到差不多的識別效果。Viavoice是一種學(xué)習(xí)型的語音識別軟件,你需要適時(shí)地對識別結(jié)果進(jìn)行調(diào)整,以方便機(jī)器下一次識別,積累下來的識別數(shù)據(jù)要妥善保護(hù),要是因?yàn)橐淮沃匮b系統(tǒng)而導(dǎo)致丟失的話,一切都得重來。從商用角度來看,這還做不到多好的商用體驗(yàn),而如今的語音識別技術(shù),從體驗(yàn)上明顯已能讓人看到曙光。
解決瓶頸,語音識別將無處不在
語音技術(shù)已經(jīng)發(fā)展了好一段時(shí)間,原本大多數(shù)出現(xiàn)在企業(yè)的客服專線,幾年前才開始運(yùn)用于應(yīng)用程序中;現(xiàn)在我們能在應(yīng)用程序、游戲機(jī)、家庭自動化、機(jī)器人、可穿戴設(shè)備等應(yīng)用領(lǐng)域中看到它。“該技術(shù)將會無所不在,”美商N(yùn)uance CommunicaTIons的首席人機(jī)互動與對話設(shè)計(jì)師Tanya Kraljic表示:“隨著語音識別技術(shù)的不斷演進(jìn),人們將會理解,這是一種與科技互動的自然方法。”
當(dāng)然,還有一些障礙需要克服;不過Kraljic相信,語音識別技術(shù)的下一次飛躍將會是一種會通知進(jìn)行對話,對使用者的過去、喜好以及個(gè)人更了解,并能使用傳感器來取得更多環(huán)境信息的智慧系統(tǒng):“我們已經(jīng)在感知技術(shù)以及自然語言理解技術(shù)方面取得很不錯(cuò)的進(jìn)展,現(xiàn)在我們需要拓展智慧功能的極限。”
Kraljic 指出,可穿戴設(shè)備將有助于促進(jìn)語音技術(shù)的發(fā)展,特別是因?yàn)楹芏嘣擃愌b置配備較小尺寸的熒幕、或是沒有熒幕,就會倚重語音形式的人機(jī)互動方案。Google Glass與Motorola的Hint免持式耳機(jī),就是采用語音作為主要輸入方式的兩個(gè)案例:“這類裝置的出現(xiàn)將語音識別使用體驗(yàn)又往前推了幾步;”盡管對科技產(chǎn)品說話感覺還是有點(diǎn)怪,她認(rèn)為有一天社會風(fēng)氣會因?yàn)楸憷砸约笆褂脙r(jià)值等因素而有所改變。
未來隨著手持設(shè)備的小型化,甚至穿戴化,各種智能眼鏡,手表等層出不窮,誰能在語音輸入方面取得領(lǐng)先優(yōu)勢,誰就能掌握了用戶的一個(gè)基礎(chǔ)需求,誰也就能在物聯(lián)網(wǎng)世界里,占據(jù)一個(gè)重要入口。