當前位置:首頁 > 嵌入式 > 嵌入式軟件
[導讀]誘人的Siri 開啟人機交互的大門

Siri,蘋果新發(fā)布的手機iPhone 4S的語音助手功能,正在成為大家熱議的話題,而我們預言,它極有可能開啟個人電腦類產(chǎn)品應用的新篇章,人機交互將真正進入大家的生活。

智慧誘人的Siri帶來人機交互熱

一場并不那么精彩的發(fā)布會,蘋果的iPhone 4S發(fā)布了。大家對iPhone 4S在硬件端缺乏創(chuàng)新很失望。不過,敏銳的我們發(fā)現(xiàn)了Siri這一功能,這個基于語音交互的助手功能將成為iPhone 4S的最大賣點。

事情的發(fā)展正如我們預料的那樣,現(xiàn)在,Siri語音助手已經(jīng)成為全球熱議的話題,iPhone 4S熱賣,而且用戶發(fā)現(xiàn)Siri能夠幫助我們通過語音輕松完成很多事情,比如:閱讀并回復短信、介紹餐廳(位置、名稱)、詢問天氣、設置鬧鐘、查看日程等。

不過大家更著迷于她的神奇:買iPhone 4S后用戶都沖著Siri那優(yōu)美的女聲提出各種稀奇古怪的問題來看她的反應。這些問題甚至包括了“你穿的什么衣服”,“生命的意義是什么”,甚至有不少人沖著她嚷嚷“我愛你”。讓人驚嘆的是,Siri完全理解這些問題,且懂得如何婉轉(zhuǎn)而詼諧地回答,且知道如何在法律范疇內(nèi)引導大家的行為。針對前面兩個問題,她的回答是“你怎么總是要問我這個呢”;“生命:一種原則或力量,被認為是獨特動態(tài)存在的基礎(chǔ)。我想我也算是一種生命”。而對于“我愛你”之類的告白,Siri則會說“我希望你不會對別的手機也這樣說”。她甚至能夠?qū)B續(xù)性的問題給出符合人類邏輯的不同回答。有人連續(xù)向Siri“求婚”三次,第一次Siri回答:“聽起來很甜蜜,不過我還有什么可以幫你的嗎?”第二次回答:“讓我們只做朋友,好嗎?”第三次Siri干脆攤牌了:“我的用戶協(xié)議沒有包括和你結(jié)婚,我很抱歉。”

很顯然,Siri是智慧的,智慧得令人驚嘆、智慧得誘惑,智慧得令人愛。難怪在iPhone 4S熱銷缺貨的同時,黑客都在致力于將智慧且誘人的Siri移植到其他iOS設備上。視頻網(wǎng)站上,關(guān)于Siri問答的視頻也被瘋狂點擊。而大量開發(fā)類似軟件的廠商,也在近期跳出來表示他們的軟件也很好……

一場人機交互熱正在到來!

 


Siri現(xiàn)在成了最熱門的應用,事實上,它正在引領(lǐng)人機交互的大潮

Siri背后的技術(shù)

Siri的神奇和強大,是如何實現(xiàn)的?有人說她的背后是“印度云”,用戶在語音提問時,iPhone 4S就偷偷接通了遠在印度的CALL CENTER(呼叫中心),那邊的印度工程師瘋狂地打字回答,iPhone 4S端再轉(zhuǎn)換為語音回給用戶——當然,這只是個玩笑。

Siri的背后,其實是眾多技術(shù)的結(jié)合,總體來看是兩大類:人工智能和云計算。如果非要綜合描述成一個概念,則是“計算技術(shù)”,而這一計算技術(shù)又是很多類技術(shù)整合而成的。下面,我們來對Siri進行一個大概的技術(shù)分拆(目的是讓大家理解分類的技術(shù),Siri的每個部分不一定就是采用的下文所舉例的技術(shù))。[!--empirenews.page--]

首先,在前端(面向用戶)的,是用戶交互技術(shù)(從表象來看,也就是我們平時所說的人機交互),主要是語音識別及語音合成技術(shù)。語音識別技術(shù)把用戶的口語轉(zhuǎn)化成文字,其中需要強大的語音知識庫,因此需要用到云計算。而語音合成則是把返回的文字結(jié)果重新轉(zhuǎn)化成語音輸出,這一步理論上本地就能完成。

其次是后臺技術(shù),這才是重角兒。這些技術(shù)的目的就是處理用戶的請求,并返回最匹配的結(jié)果。因為請求類型超多,且千奇百怪,要處理好可不簡單?;镜慕Y(jié)構(gòu)可能是分析用戶的輸入(已轉(zhuǎn)化為文本),根據(jù)輸入類型,分別采用對應的后臺進行處理。這些對應的后臺包括:①以Google為代表的網(wǎng)頁搜索技術(shù);②以Wolfram Alpha為代表的知識搜索技術(shù)(或知識計算技術(shù),百度框計算與之有些類似);③以維基百科為代表的知識庫技術(shù)(包括其他百科,如電影百科等);④以Yelp(可以理解為國外的大眾點評網(wǎng))為代表的問答以及推薦技術(shù)。當然,未來也許還會有更多的后臺技術(shù)。

例如,當你詢問某個酒店在哪里時,Google的網(wǎng)頁搜索和地圖搜索就會派上用場;當你要詢問NVIDIA是什么時,維基百科的信息就會被直接調(diào)用;而你要了解附近哪些餐館各自有什么特色時,谷歌和Yelp就會同時起作用。

總體來說,Siri不是某一種獨立的技術(shù),而是將若干現(xiàn)有技術(shù)進行了整合。這些技術(shù)并非革命性的,但當它們整合后,在用戶面前就展現(xiàn)出了神奇的一面。


語音人機交互的技術(shù)模型

為什么是手機

如果你比較喜歡研究各種計算技術(shù),以上技術(shù)你應該不會陌生。說白了,很多人都或多或少地用過以上提到的技術(shù),只是因為停留在應用層面,沒有把它們技術(shù)化罷了。無論是語音識別、語音合成,還是各種后臺計算技術(shù),其實PC上都有。那么,為什么它在智能手機上一炮而紅?

整合,是一個原因,也是很重要的原因。在目前的科技公司中,對技術(shù)分類得非常詳盡,每個公司都在某一個領(lǐng)域鉆研得非常深,但想到要把它們整合起來的公司并不多。Siri做到了,喬布斯看到了,并把它收購了,專為自己所用(再次贊一下已逝去的喬布斯的眼力)。

另外,“給出回應”也是重要原因。其實語音識別并進行相應的動作,這一點很多廠商都在做,也有很多產(chǎn)品。例如桌面Windows系統(tǒng)和Windows Phone系統(tǒng)上就有語音控制和語音搜索功能。但是它缺乏智能的語言反饋,更沒有想到要把這種反饋合成為誘人的人聲來回應用戶——這兩點中,語音合成技術(shù)不算難,但很多廠商都沒想到。

最后,也是最關(guān)鍵的原因:智能手機是隨身攜帶的。它的硬件雖然已經(jīng)“PC化”,比較強大,但輸入依舊是個麻煩事兒,而基于語音的交互恰好是最理想的解決方案。另外,智能手機還有很多PC不具備的特性:例如地理位置定位、聯(lián)系人列表、人們總是通過它在移動中解決問題。這些,也都為語音交互提供了更多更豐富的功能點。這一切因素的整合,促成了Siri,也促成了她在智能手機上的一炮而紅。[!--empirenews.page--]


不只是手機:從PC中來到PC中去

有一點是不言而喻的,隨著Siri的出現(xiàn),下一波智能手機的應用熱潮肯定是人機交互應用了?!稌f話的湯姆貓》這類變聲軟件將迅速淪為小兒科(其實它本來也是小兒科)。會有越來越多的“Siri”涌現(xiàn)。

實際上正如前文所述,目前黑客們已經(jīng)在忙著將Siri移植到其他iOS系統(tǒng)移動設備上,例如iPad,但目前能夠完成移植,Siri卻還無法連接服務器(云端),也就是說基本不可用。但我們相信,這種應用一旦出現(xiàn),就會有大量的開發(fā)商蜂擁而至。在Android上、在Windows Phone上,也會涌現(xiàn)類似的應用。事實上我們有理由相信,具備人機交互功能的語音助手將成為未來智能手機能否成功占領(lǐng)市場的關(guān)鍵點之一。

不過,我們認為Siri開啟的,不僅僅是手機應用的新篇章,而是整個PC應用的新篇章(其實,智能手機也算是PC——個人電腦的一種形態(tài))。未來,在平板上,在上網(wǎng)本上,在Ultrabook上,在傳統(tǒng)筆記本上,在一體機和臺式機上,甚至在工作站上,基于語音的人機交互系統(tǒng)將大放異彩。

這樣說是有根據(jù)的,首先,在微軟全新的手機操作系統(tǒng)Windows Phone上,已經(jīng)有了語音控制。而Windows 8和Windows Phone 8的統(tǒng)一,也會讓語音控制更加普及。而且,在PC端長期以老大自居的微軟肯定不會坐視蘋果借Siri霸占手機市場,肯定會對現(xiàn)有的語音控制進行改良做到人機交互。在未來的Win8和Windows Phone 8上,語音人機交互是完全有可能出現(xiàn)的。

而且,前面說了,Siri整合的技術(shù),實際上是各種現(xiàn)有的,基于PC開發(fā)的技術(shù),每個獨立的技術(shù)都在PC端有獨立的應用。Google的搜索大家都異常熟悉了;維基百科、百度百科用過的人也不在少數(shù);大眾點評這類網(wǎng)站也是非常熱的。語音控制電腦操作也已相當成熟(見注解1),只是由于缺乏足夠的吸引力和宣傳,用者寥寥罷了。只要做好自然語言的識別和理解,加上云端的自然語言知識搜索系統(tǒng),以及語音合成回饋技術(shù),這些來自于PC,經(jīng)整合后在智能手機上大放異彩的技術(shù),完全可以再回到PC中,在性能強大得多的PC上扮演更具誘惑力的個人語音助手,甚至是“商務助手”、“辦公助手”、“專業(yè)設計助手”等各種角色。我們甚至可以期待數(shù)字家電成型后,通過語音助手控制電腦,進一步完成對所有家電的控制。想遠點,或許幾年后,我會對著電腦說:請幫我關(guān)閉家里的電視,另外繳納上兩個月的電費,同時預訂下午2點使用會議室,另外在下午5點30分給家里打電話告訴家人我加班不回家吃飯,并在最近的必勝客幫我訂一塊肉香滿溢披薩上門”。我的電腦就會聯(lián)合手機,完成我所有的安排,并自動詢問我披薩送上門的時間,還自動將繳費發(fā)票信息提交到我的電腦屏幕上……

一場關(guān)于個人電腦應用革命的大門正在被開啟!這一切令我們激動!我們無比期待!

 


Windows上其實也有非常成熟的語音控制系統(tǒng),不過智能的人機交流是它匱乏的,但未來前景會很驚人[!--empirenews.page--]

注解1:

目前PC上的語音控制操作已相當成熟,包括中文在內(nèi)的語音識別也已很不錯。Win7自帶語音控制(叫作“語音識別”),你只要在稍微安靜點的地方經(jīng)過20分鐘左右的“適應訓練”,基本上Win7上的絕大部分操作都可以用語音進行控制,包括專業(yè)軟件操作。

其實很多操控通過語音的確非??旖?,比如平時我們要開啟計算器、寫字板、記事本等小軟件是很麻煩的,而通過語音控制,你只需說出“開啟XXX”即可打開對應軟件,且可進行語音輸入。

關(guān)于語音人機交互的熱點問題解答

1、Siri是專門給蘋果iPhone 4S準備的嗎?Android系統(tǒng)上有嗎?

Siri本來是App Store上的一個應用,不過前期被喬布斯相中了,買了下來,現(xiàn)在專屬于蘋果的iPhone 4S。我們相信未來會植入新款iPhone甚至iPad中,但Android系統(tǒng)上……恐怕有點難了。

2、Siri能夠聽得懂并會說漢語嗎?

這小妞目前只會英語、法語和德語,不過蘋果公司已經(jīng)承諾,會在2012年推出支持漢語、日語、韓語、意大利語及西班牙語的Siri。

3、還有哪些操作系統(tǒng)或者說產(chǎn)品上有語音助手這種好玩的東東呢?

你的電腦的Windows上就有,Win7上的“語音識別”就比較好用。另外Windows Phone 7上也有語音控制功能,比如你可以詢問手機某個地方怎么走。不過,這些應用都不會給你幽默有趣的語音反饋,說簡單點就是:只會照著你說的做,不會智能地和你聊天。

Andorid系統(tǒng)上有兩個軟件倒是值得關(guān)注:Vlingo和Speaktoit??傮w來說,Vlingo和PC上的語音識別相差不多,只能算是執(zhí)行命令的“機器”,而Speaktoit則非常智能,比較類似于Siri,能夠和你智能對話,只是沒有Siri那么“幽默”。

WP7上的語音控制基本就是“我說你照做”,不過相信微軟對Siri不會視而不見的,肯定會進行改進

Android系統(tǒng)上的Speaktoit和Siri有一拼

4、那么智慧的Siri和Speaktoit是不是能回答我的所有問題呢?

她們足以讓你感到吃驚了,但并非能夠給你所有的問題予你想要的回答。當然,我這么說了也沒用,你肯定還是會問她們各種問題的^__^。自己試試看吧。

 
 

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉