具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數(shù)據(jù)集,可以檢驗(yàn)算法在城區(qū)場景語義理解方面的表現(xiàn)。今年10月,科大訊飛在自動駕駛場景分割任務(wù)中獲得了第一名,主要是使用了名為“層次分割”的技術(shù)。
很長一段時間里,科大訊飛在車載前裝領(lǐng)域都是通過車機(jī)系統(tǒng)供應(yīng)商間接向車企提供服務(wù),業(yè)務(wù)只聚焦在智能語音技術(shù)。
不過在2016年科大訊飛年會上,我們看到了一款汽車互聯(lián)系統(tǒng)“飛魚助理”。科大訊飛正式宣布——未來會包辦一整套車機(jī)系統(tǒng)的軟硬件和數(shù)據(jù)服務(wù),角色向TSP轉(zhuǎn)型。
時隔一年,飛魚升級到了2.0版本,并且形成了更加清晰完整的產(chǎn)品架構(gòu)。而且我們發(fā)現(xiàn),除了核心的智能語音交互,科大訊飛開始做視覺了。
年會現(xiàn)場用來展示飛魚2.0的廣汽傳祺GS8
飛魚2.0更新了什么?
在飛魚1.0版本上,整個交互體驗(yàn)更加自然。人和車對話的時候,車就可以記住上下文,理解每一個指代的意思。你可以不用多次喚醒就能調(diào)用導(dǎo)航、音樂、撥打電話等功能,也可以在車說話時打斷它。
在今年的年會現(xiàn)場,飛魚2.0版本做了升級。科大訊飛汽車事業(yè)部副總經(jīng)理謝信珍告訴記者,去年展示飛魚1.0時更多還是一種未來規(guī)劃,但今年的2.0版本已經(jīng)是可以落地的產(chǎn)品。
大家可以從上面的視頻看到幾個之前沒有的亮點(diǎn):
1.知道該聽誰的話。新版系統(tǒng)知道要采集哪個方向的聲音,鎖定駕駛員是說出喚醒詞的位置后,副駕座位的聲音就不會出現(xiàn)“搶麥”情況。要實(shí)現(xiàn)這個功能,主要是對麥克風(fēng)陣列和軟件算法做升級。
2.連接后臺賬號系統(tǒng)。飛魚2.0可以在喚醒后“主動服務(wù)”。它會提醒你今天是老婆大人的生日,推薦老婆大人喜歡的餐廳,推薦喜歡的電影然后購票。系統(tǒng)和個人的綁定更深。
3.接入了車輛總線系統(tǒng)。在1.0中,系統(tǒng)只能用語音控制音樂、導(dǎo)航、電話等信息娛樂功能。在2.0版,我們可以用語音控制開關(guān)天窗、調(diào)節(jié)空調(diào)溫度這些和行車安全影響不大的功能。
除了第一點(diǎn)是智能語音技術(shù)上的更新,后兩項(xiàng)都是包辦軟硬數(shù)服一體化后,語音有機(jī)會和車、和人發(fā)生的更多關(guān)聯(lián)。
當(dāng)然,后兩項(xiàng)也代表了一種選擇。更加個性化的服務(wù)意味著對個人數(shù)據(jù)使用權(quán)的開發(fā),這是用戶面臨的選擇。更加懂得汽車意味著車輛數(shù)據(jù)的開放,這是主機(jī)廠面臨的選擇。
把眼睛叫醒
在智能語音交互之外,圖像識別也在汽車場景下找到了發(fā)揮功能的機(jī)會。
坦白說,在參會前看到預(yù)告時,記者以為視覺技術(shù)更多會用在駕駛員身份鑒別。因?yàn)榭拼笥嶏w研發(fā)主管趙艷軍曾經(jīng)說過,AIUI在定義之初,“就沒有把語音作為唯一的交互方式,而是把它設(shè)想為結(jié)合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機(jī)交互解決方案”。
所以當(dāng)科大訊飛說要借助攝像頭的眼睛看向車外時,記者還是有些意外的。
泊車輔助
視覺首個應(yīng)用場景會是泊車。在有清晰車位線的情況下,可以借助泊車攝像頭觀察外部情況,找到合適車位時,用交互的方式提醒用戶打方向盤,輔助車輛進(jìn)入車庫。沒有車位線時,也可以司機(jī)在屏幕上劃線選擇停車位置,系統(tǒng)把車停到庫中。當(dāng)然也可以看到,在一開始的版本中,還沒有涉及車輛控制層面的內(nèi)容。
目前視覺的部分仍然由科大訊飛的研究院來推進(jìn),選擇的泊車應(yīng)用也是一個相對簡單的場景。在回答“和專門做視覺的企業(yè)比,科大訊飛有什么優(yōu)勢”這個問題時,汽車業(yè)務(wù)部副總經(jīng)理謝信珍提到了科大訊飛在技術(shù)源頭上的積累。他認(rèn)為語音對信號連貫性的要求更高,做語音跨到圖像會更容易。
Cityscape數(shù)據(jù)集成績
具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數(shù)據(jù)集,可以檢驗(yàn)算法在城區(qū)場景語義理解方面的表現(xiàn)。今年10月,科大訊飛在自動駕駛場景分割任務(wù)中獲得了第一名,主要是使用了名為“層次分割”的技術(shù)。
數(shù)據(jù)集測試成績可以在某種程度上反映科大訊飛的算法能力。不過實(shí)際應(yīng)用中,科大訊飛的算法要面對嵌入式平臺和實(shí)時性兩個方面的考慮。謝信珍表示,科大訊飛的優(yōu)勢在于工程優(yōu)化能力,360環(huán)視算法主要是拼接和魚眼矯正計算量比較高,目前已經(jīng)揉到CUP、GPU上分別負(fù)載來跑,跑得也比較順暢了。
科大訊飛做視覺,這意味著從對車內(nèi)人的理解,延伸到了對車外環(huán)境的理解。
科大訊飛未來產(chǎn)品布局
科大訊飛汽車事業(yè)部總經(jīng)理劉俊峰在飛魚2.0發(fā)布時提到,未來會把理解人、理解環(huán)境兩部分完整做到一起,用一個腦部(飛魚AIUI)連接聽覺和嘴(飛魚對話式引擎)、眼睛(飛魚智盒),達(dá)到多維輸入,最后由后臺進(jìn)行數(shù)據(jù)的分析處理(飛魚數(shù)據(jù)工場)。
技術(shù)和應(yīng)用的雙輪驅(qū)動
科大訊飛董事長劉慶峰和輪值總裁吳曉如在發(fā)布會當(dāng)天都提到了一句話——人工智能是技術(shù)和應(yīng)用雙輪驅(qū)動的。通過落地在應(yīng)用場景不斷收集數(shù)據(jù)訓(xùn)練算法,才能磨練出更好的技術(shù)。
飛魚2.0系統(tǒng)包括飛魚對話引擎、飛魚AIUI,飛魚智盒,飛魚數(shù)據(jù)工場等,都是面向車端應(yīng)用的產(chǎn)品。
為了在車端落地產(chǎn)品,科大訊飛逐漸補(bǔ)充了車機(jī)系統(tǒng)方面的欠缺。據(jù)謝信珍介紹,科大訊飛汽車事業(yè)部今年已經(jīng)達(dá)到了400人的規(guī)模,主要包括對話引擎、大數(shù)據(jù)分析和軟硬一體化內(nèi)容,其中軟硬一體化的員工最多,將近有總?cè)藬?shù)的一半。
除了用大量人才儲備更好理解車載軟硬件,核心的智能語音方面,科大訊飛也在解決一些關(guān)鍵問題。謝信珍介紹,目前科大訊飛在車載環(huán)境普通話的語音識別準(zhǔn)確率為98%,未來除了繼續(xù)完善方言識別,也在攻克一些車載環(huán)境中語音識別效果不好的場景。
對于當(dāng)前的產(chǎn)品化情況,劉俊峰公開了一組數(shù)字——訊飛的產(chǎn)品已經(jīng)覆蓋了200個型號的車型,每年的出貨量突破兩百萬套,累積前裝裝車量1千萬。
今年,科大訊飛陸續(xù)與包括北汽、廣汽、長安、奇瑞在內(nèi)的多家主機(jī)廠簽署了合作框架,涉及智能語音技術(shù)、車載智能化和智能車聯(lián)網(wǎng)平臺等多個領(lǐng)域。謝信珍也透露,基于飛魚2.0系統(tǒng),科大訊飛和主機(jī)廠的合作已經(jīng)進(jìn)行了3-4個月,其中視覺方面會把360環(huán)視先做起來。
受限于前端產(chǎn)品的出貨周期和更新頻率,科大訊飛還推出了后裝產(chǎn)品小飛魚。謝信珍表示,小飛魚最大的優(yōu)勢是迭代速度會更快,每兩星期會有個新的功能。但是科大訊飛還是會把更多資源和精力押注在前裝,因?yàn)榍把b才有機(jī)會把系統(tǒng)和車機(jī)更深地結(jié)合,生產(chǎn)出更多功能。
小結(jié)從車載智能語音小角度切入,科大訊飛沿著理解人和理解車兩個坐標(biāo)軸,給出了一個面向未來智能汽車的閉環(huán)方案。當(dāng)前來看,科大訊飛的優(yōu)勢仍然在語音,在車載視覺上的積累還比較初期,最后視覺與語音能不能很好融合,還要等待合作孵出一個落地的產(chǎn)品。