真聽真看見，未來人機交互需消除用戶的認知負荷

時間：2023-01-09 19:35:02

關鍵字：技術物聯(lián)網(wǎng) 信息

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]自從技術出現(xiàn)以來，對技術的道德恐慌就一直是人類體驗的一部分。而人類科技所帶來的信息共享，正有逐步讓人類打消對隱私的顧慮，習慣透明化生存，以及將人體作為物聯(lián)網(wǎng)終端一部分的趨勢。

自從技術出現(xiàn)以來，對技術的道德恐慌就一直是人類體驗的一部分。而人類科技所帶來的信息共享，正有逐步讓人類打消對隱私的顧慮，習慣透明化生存，以及將人體作為物聯(lián)網(wǎng)終端一部分的趨勢。

數(shù)據(jù)研究者稱 2020 年，語音交互將占據(jù) 50% 的搜索入口。Amazon Alexa和Google助手等語音助手，AIOT, 車載助理，智能音箱... 在目前人類科技樹上，“語音交互” (Voice interaction) 已然成為必點技能之一。然而在各種場景下，人們嘗試通過“自然語言”重新與冰冷的機器對話，但往往效果不及預期。

語音識別技術大概經(jīng)歷過三個階段，從匹配聲紋和聲波到下達命令，面臨很難進行統(tǒng)一地語法規(guī)律，識別的錯誤率很高的挑戰(zhàn)，一直到依托于算力和大數(shù)據(jù)，通過神經(jīng)網(wǎng)絡來建立更復雜的這種語音識別模型。

VUI（Voice User Interface，語音用戶界面）正是在第三階段快速發(fā)展的新領域。VUI對用戶體驗提出了更多關于語言學、情感塑造、邏輯搭建等方面的新要求。

語音技術，越來越多地用于智能家居控制、樓宇自動化、智能零售、聯(lián)接的汽車、醫(yī)療等物聯(lián)網(wǎng)垂直領域。而語音識別和自然語言處理技術是VUI的基礎。

“千箱大戰(zhàn)”退潮，智能語音交互持續(xù)進化

人類傳統(tǒng)的交互單一通道有眼（視覺系統(tǒng)）、耳（聽覺系統(tǒng)）、口（味覺系統(tǒng)）、鼻（嗅覺系統(tǒng)）、手（觸覺系統(tǒng)）等器官，在這些通道彼此融合后，人機交互技術正從鍵盤鼠標變成了觸屏，又轉(zhuǎn)變成現(xiàn)在的語音視覺等多模態(tài)交互。具體表現(xiàn)為從“手指”優(yōu)先，發(fā)展為“語音”優(yōu)先。語音交互技術兼顧老人、兒童以及方言人士讓語音對話體驗越來越好。語音與視覺，觸屏，LCD反饋顯示結(jié)合的交互體驗，令交互門檻的不斷降低。

VUI是用戶通過語音或者語音平臺與計算機進行人機交互，來啟動自動化服務或流程。VUI設計，即用戶與語音應用系統(tǒng)的交互設計。VUI是直接面向用戶的界面，所以是否能滿足用戶需求是系統(tǒng)成功與否的決定性因素之一。

VUI各種場景下對聲音信息的收集帶來了便利，個性化推送、定制服務都不再高端，逐漸平民化，提高了社會運行效率，降低時間與商家的營銷成本。

VUI將成為私人助理

一個行業(yè)，如果有爆發(fā)式的增長，一定是打中了被壓制的需求。聲音的價值在于便利性和情境性或者情感性，VUI正是戳中了別的交互技術所不能達到的情境性。

Siri淑女、微軟小冰的童真可愛、小愛同學的青春靚麗，商家主動打造VUI虛擬角色、樹立不同人格特質(zhì)供用戶選擇。

VUI技術的發(fā)展將更容易為人們提供量身定制的數(shù)字體驗，它不但能成為人們的私人助理，了解人的需求，還能超前預測需求。它能涉及到你生活的方方面面，甚至是你想象不到的領域。

聲音承載的信息特性是能包含更多感情信息。因為需要穩(wěn)定易理解的文字信息所以更需要語音識別，只是強調(diào)語音清晰還不夠用。但其實無論是Siri還是微軟小冰，語音呈現(xiàn)模仿人類的語言情感仍不算非常理想，“機器味兒”重。

VUI 的設計趨勢

衡量語音交互的質(zhì)量也不再局限于識別的準確率，而是更側(cè)重垂直場景下的語義理解，以及后端的內(nèi)容服務。

＋

讓智能語音交互實現(xiàn)“真”智能

未來的語音交互終端需要理解“千人千面”，即使對面是一臺機器，它不僅懂你聲音的語義，也懂你的情感和訴求。

聲音承載的信息本身，信息密度不高，而且人類主要依賴視覺信息。聲音信息（生物特征識別）本身的價值，比較有限，應用也很有限。說話聲音的粗細音調(diào)高低語言習慣，這些在刑偵領域、安防技術領域有應用。無障礙設計，創(chuàng)建可用不同方式呈現(xiàn)的內(nèi)容（例如簡單的布局），而不會丟失信息或結(jié)構(gòu)。

追求的一種自然、親切的交互方式，使產(chǎn)品“帶有情感和溫度的交互體驗”，真正的從用戶角度出發(fā)。

＋

消除使用者的認知負荷

聲音信息的價值被注意到，但是如何利用和維護是個問題。

一方面，目前缺乏監(jiān)管、缺乏法律對于聲音信息收集的約束（其實對于隱私收集，全世界范圍內(nèi)都缺乏成熟的法律法規(guī)），導致聲音信息收集被濫用。另一方面，一些打著科技讓生活更美好的幌子的企業(yè)們干起了用戶信息灰色交易、大數(shù)據(jù)殺熟等等勾當。

19年南京建環(huán)給環(huán)衛(wèi)工配發(fā)智能手環(huán)

更敏感的，是公權力對于聲音信息的收集是否對于公民權利構(gòu)成侵犯。對于公權力法無授權地侵犯，法律似乎沒有明確這方面的界限。

消除使用者的認知負荷，是VUI技術持續(xù)發(fā)展亟待解決的問題。

協(xié)同圖形用戶界面（GUI）

語音、視覺、觸控加上反饋的融合是未來的方向。建立GUI+VUI協(xié)作機制，可打造更多智慧體驗。

GUI的內(nèi)容主要為圖形和文字；VUI的內(nèi)容主要為文字。人們主要通過點擊和手勢的方式與GUI進行交互，人們通過對話的方式與VUI進行交互。VUI要給出正確的響應事件必須要先理解人類在說什么，更重要的是在想什么。

例如Siri、Google Assistant、Cortana、Bixby，以及Alexa屏幕版。在GUI的基礎上增加VUI有助于簡化整個導航的交互，可以做到無直接關系頁面的跳轉(zhuǎn)，例如以命令的形式導航去其他應用的某個頁面。在VUI的基礎上增加GUI可以使選擇、確認等操作得以簡化，尤其是用Alexa進行購物時。