無處不在的語音識(shí)別，讓物聯(lián)網(wǎng)用戶體驗(yàn)再升級(jí)

時(shí)間：2020-09-01 08:36:01

關(guān)鍵字：物聯(lián)網(wǎng) 語音識(shí)別語音輸入

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　隨著語音技術(shù)的不斷發(fā)展，語音識(shí)別已在多個(gè)領(lǐng)域廣泛利用。我們體驗(yàn)過語音輸入、語音控制及語音撥號(hào)等應(yīng)用的便捷，但是也經(jīng)常吐槽其辨識(shí)度的瓶頸。盡管如此當(dāng)下火熱的可穿戴設(shè)備廠商也力拼此項(xiàng)技術(shù)，顯然，

　　隨著語音技術(shù)的不斷發(fā)展，語音識(shí)別已在多個(gè)領(lǐng)域廣泛利用。我們體驗(yàn)過語音輸入、語音控制及語音撥號(hào)等應(yīng)用的便捷，但是也經(jīng)常吐槽其辨識(shí)度的瓶頸。盡管如此當(dāng)下火熱的可穿戴設(shè)備廠商也力拼此項(xiàng)技術(shù)，顯然，語音識(shí)別被認(rèn)為是未來物聯(lián)網(wǎng)領(lǐng)域的基礎(chǔ)需求，甚至將會(huì)無處不在。

　　據(jù)中國(guó)智能語音產(chǎn)業(yè)聯(lián)盟發(fā)布的《2013中國(guó)智能語音產(chǎn)業(yè)發(fā)展白皮書》稱，智能語音已進(jìn)入快速應(yīng)用階段。去年，中國(guó)智能語音產(chǎn)業(yè)規(guī)模約為8.6億元，帶動(dòng)相關(guān)產(chǎn)業(yè)產(chǎn)值100億元，預(yù)計(jì)到2017年，將帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模增長(zhǎng)1000億元，占全球相關(guān)產(chǎn)業(yè)規(guī)模的比重將由去年的5.6%增至17.1%。

　　上述針對(duì)語音產(chǎn)業(yè)市場(chǎng)的數(shù)據(jù)并不是特別可信，僅科大訊飛剛剛公布的2013年年報(bào)顯示，實(shí)現(xiàn)營(yíng)業(yè)總收入125370.78萬元，同比增長(zhǎng)59.92%，實(shí)現(xiàn)利潤(rùn)總額32058.40萬元。試問，上述白皮書的內(nèi)容如何讓人信服。

　　增強(qiáng)用戶體驗(yàn)，云平臺(tái)仍需完善

　　以目前的技術(shù)，語音識(shí)別在實(shí)驗(yàn)室條件下能達(dá)到非常高的準(zhǔn)確率，但實(shí)際應(yīng)用中往往遇到環(huán)境噪音、方言口音、話題專業(yè)性等問題，最終影響用戶體驗(yàn)，因此，技術(shù)的穩(wěn)定和成熟程度是語音識(shí)別的創(chuàng)業(yè)門檻。梁家恩認(rèn)為，要想把語音識(shí)別系統(tǒng)做好，除了有強(qiáng)大的算法以外，還要有大量的數(shù)據(jù)。他坦言，與行業(yè)老大科大訊飛相比，云知聲的數(shù)據(jù)量要少得多，不過，通過建立公有云平臺(tái)，可以不斷積累數(shù)據(jù)，從而優(yōu)化系統(tǒng)。

　　云知聲聯(lián)合創(chuàng)始人、CEO梁家恩表示相比傳統(tǒng)做2B的語音識(shí)別公司，云知聲的基因更偏向于互聯(lián)網(wǎng)，通過免費(fèi)的公有云語音平臺(tái)帶動(dòng)私有云服務(wù)的定制，還為日后進(jìn)一步商業(yè)化埋下伏筆。

　　具體而言，公有云平臺(tái)提供大詞匯量連續(xù)語音在線識(shí)別，開發(fā)者不論大小，都可以通過API直接調(diào)用公有云服務(wù)。事實(shí)上，云知聲的客戶里80%以上都是中小企業(yè)和個(gè)人開發(fā)者，這恰好與深耕大客戶服務(wù)的科大訊飛形成了一種差異和互補(bǔ)。不過，這并不影響大企業(yè)對(duì)云知聲的青睞。梁家恩坦言，包括樂視、錘子RO M，其實(shí)一開始找的都是科大訊飛，云知聲之所以最終能吸引到他們，除了技術(shù)達(dá)到一定水準(zhǔn)以外，快速的執(zhí)行力是最大的優(yōu)勢(shì)。“以跟搜狗的合作為例，從第一次接觸，到搜狗語音助手的發(fā)布只花了兩周時(shí)間，而一般來說要洽談幾個(gè)月。”這些大企業(yè)本身的用戶量很大，一下子給公有云平臺(tái)帶來了大量數(shù)據(jù)。

　　有了公有云作為基礎(chǔ)，云知聲進(jìn)一步探索私有云的路徑。梁家恩解釋，公有云平臺(tái)提供的只是基礎(chǔ)的語音技術(shù)服務(wù)，而事實(shí)上，語音交互跟企業(yè)業(yè)務(wù)的關(guān)聯(lián)性很強(qiáng)，對(duì)于那些對(duì)語音有剛需的企業(yè)來說，公有云并不足以完全滿足需求，還要根據(jù)企業(yè)特有的應(yīng)用環(huán)境優(yōu)化識(shí)別模型。比如云知聲與樂視的合作，就是將語音助手根據(jù)電視領(lǐng)域進(jìn)行了深度定制和融合，使得效果更貼合智能電視的實(shí)際使用。

　　智能手表將綁定語音識(shí)別

　　智能手表屏幕較小，使用額外的S-pen一類的輔助工具也并不現(xiàn)實(shí)，在當(dāng)前條件下看，唯有依靠語音輸入了。語音輸入看上去是個(gè)不大的基礎(chǔ)應(yīng)用，實(shí)現(xiàn)起來卻需要非常復(fù)雜的技術(shù)能力，已經(jīng)涉及到人工智能AI的范疇，而且這個(gè)技術(shù)已經(jīng)進(jìn)化了幾十年，似乎還沒得以大規(guī)模商用，可見其開發(fā)難度。

　　Gear中內(nèi)置了三星自己的S-Voice，另外也和百度合作，將百度語音助手預(yù)裝了進(jìn)去?？磥戆俣扰c三星的關(guān)系相當(dāng)不一般，前有百度云，后有語音助手，對(duì)看重安卓更甚iOS的百度，支持力度相當(dāng)大。不過，還是有理由相信，百度語音助手的技術(shù)實(shí)力已達(dá)到三星所期望的程度，預(yù)裝其語音產(chǎn)品，可以給智能手表帶來更好的用戶體驗(yàn)。語音有可能是智能手表的唯一輸入方式，在這方面無法做到準(zhǔn)確，易用，快捷，是很難讓用戶買單的，會(huì)成為其發(fā)展瓶頸。

　　其他一些語音識(shí)別工具，如搜狗和科大訊飛等產(chǎn)品，是不是也能做到差不多的識(shí)別效果。Viavoice是一種學(xué)習(xí)型的語音識(shí)別軟件，你需要適時(shí)地對(duì)識(shí)別結(jié)果進(jìn)行調(diào)整，以方便機(jī)器下一次識(shí)別，積累下來的識(shí)別數(shù)據(jù)要妥善保護(hù)，要是因?yàn)橐淮沃匮b系統(tǒng)而導(dǎo)致丟失的話，一切都得重來。從商用角度來看，這還做不到多好的商用體驗(yàn)，而如今的語音識(shí)別技術(shù)，從體驗(yàn)上明顯已能讓人看到曙光。

　　解決瓶頸，語音識(shí)別將無處不在

　　語音技術(shù)已經(jīng)發(fā)展了好一段時(shí)間，原本大多數(shù)出現(xiàn)在企業(yè)的客服專線，幾年前才開始運(yùn)用于應(yīng)用程序中；現(xiàn)在我們能在應(yīng)用程序、游戲機(jī)、家庭自動(dòng)化、機(jī)器人、可穿戴設(shè)備等應(yīng)用領(lǐng)域中看到它。“該技術(shù)將會(huì)無所不在，”美商N(yùn)uance CommunicaTIons的首席人機(jī)互動(dòng)與對(duì)話設(shè)計(jì)師Tanya Kraljic表示：“隨著語音識(shí)別技術(shù)的不斷演進(jìn)，人們將會(huì)理解，這是一種與科技互動(dòng)的自然方法。”

　　當(dāng)然，還有一些障礙需要克服；不過Kraljic相信，語音識(shí)別技術(shù)的下一次飛躍將會(huì)是一種會(huì)通知進(jìn)行對(duì)話，對(duì)使用者的過去、喜好以及個(gè)人更了解，并能使用傳感器來取得更多環(huán)境信息的智慧系統(tǒng)：“我們已經(jīng)在感知技術(shù)以及自然語言理解技術(shù)方面取得很不錯(cuò)的進(jìn)展，現(xiàn)在我們需要拓展智慧功能的極限。”

　　Kraljic 指出，可穿戴設(shè)備將有助于促進(jìn)語音技術(shù)的發(fā)展，特別是因?yàn)楹芏嘣擃愌b置配備較小尺寸的熒幕、或是沒有熒幕，就會(huì)倚重語音形式的人機(jī)互動(dòng)方案。Google Glass與Motorola的Hint免持式耳機(jī)，就是采用語音作為主要輸入方式的兩個(gè)案例：“這類裝置的出現(xiàn)將語音識(shí)別使用體驗(yàn)又往前推了幾步；”盡管對(duì)科技產(chǎn)品說話感覺還是有點(diǎn)怪，她認(rèn)為有一天社會(huì)風(fēng)氣會(huì)因?yàn)楸憷砸约笆褂脙r(jià)值等因素而有所改變。

　　未來隨著手持設(shè)備的小型化，甚至穿戴化，各種智能眼鏡，手表等層出不窮，誰能在語音輸入方面取得領(lǐng)先優(yōu)勢(shì)，誰就能掌握了用戶的一個(gè)基礎(chǔ)需求，誰也就能在物聯(lián)網(wǎng)世界里，占據(jù)一個(gè)重要入口。