科大訊飛自動駕駛布局聚焦智能語音

時間：2020-07-16 08:27:02

關(guān)鍵字：智能語音科大訊飛自動駕駛

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數(shù)據(jù)集，可以檢驗(yàn)算法在城區(qū)場景語義理解方面的表現(xiàn)。今年10月，科大訊飛在自動駕駛場景分割任務(wù)中獲得了第一

具體用來證明視覺方面能力的例子是Cityscape的榜單成績。后者是一個用來評估視覺算法的數(shù)據(jù)集，可以檢驗(yàn)算法在城區(qū)場景語義理解方面的表現(xiàn)。今年10月，科大訊飛在自動駕駛場景分割任務(wù)中獲得了第一名，主要是使用了名為“層次分割”的技術(shù)。

很長一段時間里，科大訊飛在車載前裝領(lǐng)域都是通過車機(jī)系統(tǒng)供應(yīng)商間接向車企提供服務(wù)，業(yè)務(wù)只聚焦在智能語音技術(shù)。

不過在2016年科大訊飛年會上，我們看到了一款汽車互聯(lián)系統(tǒng)“飛魚助理”。科大訊飛正式宣布——未來會包辦一整套車機(jī)系統(tǒng)的軟硬件和數(shù)據(jù)服務(wù)，角色向TSP轉(zhuǎn)型。

時隔一年，飛魚升級到了2.0版本，并且形成了更加清晰完整的產(chǎn)品架構(gòu)。而且我們發(fā)現(xiàn)，除了核心的智能語音交互，科大訊飛開始做視覺了。

年會現(xiàn)場用來展示飛魚2.0的廣汽傳祺GS8

飛魚2.0更新了什么？

在飛魚1.0版本上，整個交互體驗(yàn)更加自然。人和車對話的時候，車就可以記住上下文，理解每一個指代的意思。你可以不用多次喚醒就能調(diào)用導(dǎo)航、音樂、撥打電話等功能，也可以在車說話時打斷它。

在今年的年會現(xiàn)場，飛魚2.0版本做了升級。科大訊飛汽車事業(yè)部副總經(jīng)理謝信珍告訴記者，去年展示飛魚1.0時更多還是一種未來規(guī)劃，但今年的2.0版本已經(jīng)是可以落地的產(chǎn)品。

大家可以從上面的視頻看到幾個之前沒有的亮點(diǎn)：

1.知道該聽誰的話。新版系統(tǒng)知道要采集哪個方向的聲音，鎖定駕駛員是說出喚醒詞的位置后，副駕座位的聲音就不會出現(xiàn)“搶麥”情況。要實(shí)現(xiàn)這個功能，主要是對麥克風(fēng)陣列和軟件算法做升級。

2.連接后臺賬號系統(tǒng)。飛魚2.0可以在喚醒后“主動服務(wù)”。它會提醒你今天是老婆大人的生日，推薦老婆大人喜歡的餐廳，推薦喜歡的電影然后購票。系統(tǒng)和個人的綁定更深。

3.接入了車輛總線系統(tǒng)。在1.0中，系統(tǒng)只能用語音控制音樂、導(dǎo)航、電話等信息娛樂功能。在2.0版，我們可以用語音控制開關(guān)天窗、調(diào)節(jié)空調(diào)溫度這些和行車安全影響不大的功能。

除了第一點(diǎn)是智能語音技術(shù)上的更新，后兩項(xiàng)都是包辦軟硬數(shù)服一體化后，語音有機(jī)會和車、和人發(fā)生的更多關(guān)聯(lián)。

當(dāng)然，后兩項(xiàng)也代表了一種選擇。更加個性化的服務(wù)意味著對個人數(shù)據(jù)使用權(quán)的開發(fā)，這是用戶面臨的選擇。更加懂得汽車意味著車輛數(shù)據(jù)的開放，這是主機(jī)廠面臨的選擇。

把眼睛叫醒

在智能語音交互之外，圖像識別也在汽車場景下找到了發(fā)揮功能的機(jī)會。

坦白說，在參會前看到預(yù)告時，記者以為視覺技術(shù)更多會用在駕駛員身份鑒別。因?yàn)榭拼笥嶏w研發(fā)主管趙艷軍曾經(jīng)說過，AIUI在定義之初，“就沒有把語音作為唯一的交互方式，而是把它設(shè)想為結(jié)合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機(jī)交互解決方案”。

所以當(dāng)科大訊飛說要借助攝像頭的眼睛看向車外時，記者還是有些意外的。

泊車輔助

視覺首個應(yīng)用場景會是泊車。在有清晰車位線的情況下，可以借助泊車攝像頭觀察外部情況，找到合適車位時，用交互的方式提醒用戶打方向盤，輔助車輛進(jìn)入車庫。沒有車位線時，也可以司機(jī)在屏幕上劃線選擇停車位置，系統(tǒng)把車停到庫中。當(dāng)然也可以看到，在一開始的版本中，還沒有涉及車輛控制層面的內(nèi)容。

目前視覺的部分仍然由科大訊飛的研究院來推進(jìn)，選擇的泊車應(yīng)用也是一個相對簡單的場景。在回答“和專門做視覺的企業(yè)比，科大訊飛有什么優(yōu)勢”這個問題時，汽車業(yè)務(wù)部副總經(jīng)理謝信珍提到了科大訊飛在技術(shù)源頭上的積累。他認(rèn)為語音對信號連貫性的要求更高，做語音跨到圖像會更容易。

Cityscape數(shù)據(jù)集成績

數(shù)據(jù)集測試成績可以在某種程度上反映科大訊飛的算法能力。不過實(shí)際應(yīng)用中，科大訊飛的算法要面對嵌入式平臺和實(shí)時性兩個方面的考慮。謝信珍表示，科大訊飛的優(yōu)勢在于工程優(yōu)化能力，360環(huán)視算法主要是拼接和魚眼矯正計算量比較高，目前已經(jīng)揉到CUP、GPU上分別負(fù)載來跑，跑得也比較順暢了。

科大訊飛做視覺，這意味著從對車內(nèi)人的理解，延伸到了對車外環(huán)境的理解。

科大訊飛未來產(chǎn)品布局

科大訊飛汽車事業(yè)部總經(jīng)理劉俊峰在飛魚2.0發(fā)布時提到，未來會把理解人、理解環(huán)境兩部分完整做到一起，用一個腦部（飛魚AIUI）連接聽覺和嘴（飛魚對話式引擎）、眼睛（飛魚智盒），達(dá)到多維輸入，最后由后臺進(jìn)行數(shù)據(jù)的分析處理（飛魚數(shù)據(jù)工場）。

技術(shù)和應(yīng)用的雙輪驅(qū)動

科大訊飛董事長劉慶峰和輪值總裁吳曉如在發(fā)布會當(dāng)天都提到了一句話——人工智能是技術(shù)和應(yīng)用雙輪驅(qū)動的。通過落地在應(yīng)用場景不斷收集數(shù)據(jù)訓(xùn)練算法，才能磨練出更好的技術(shù)。

飛魚2.0系統(tǒng)包括飛魚對話引擎、飛魚AIUI，飛魚智盒，飛魚數(shù)據(jù)工場等，都是面向車端應(yīng)用的產(chǎn)品。

為了在車端落地產(chǎn)品，科大訊飛逐漸補(bǔ)充了車機(jī)系統(tǒng)方面的欠缺。據(jù)謝信珍介紹，科大訊飛汽車事業(yè)部今年已經(jīng)達(dá)到了400人的規(guī)模，主要包括對話引擎、大數(shù)據(jù)分析和軟硬一體化內(nèi)容，其中軟硬一體化的員工最多，將近有總?cè)藬?shù)的一半。

除了用大量人才儲備更好理解車載軟硬件，核心的智能語音方面，科大訊飛也在解決一些關(guān)鍵問題。謝信珍介紹，目前科大訊飛在車載環(huán)境普通話的語音識別準(zhǔn)確率為98%，未來除了繼續(xù)完善方言識別，也在攻克一些車載環(huán)境中語音識別效果不好的場景。

對于當(dāng)前的產(chǎn)品化情況，劉俊峰公開了一組數(shù)字——訊飛的產(chǎn)品已經(jīng)覆蓋了200個型號的車型，每年的出貨量突破兩百萬套，累積前裝裝車量1千萬。

今年，科大訊飛陸續(xù)與包括北汽、廣汽、長安、奇瑞在內(nèi)的多家主機(jī)廠簽署了合作框架，涉及智能語音技術(shù)、車載智能化和智能車聯(lián)網(wǎng)平臺等多個領(lǐng)域。謝信珍也透露，基于飛魚2.0系統(tǒng)，科大訊飛和主機(jī)廠的合作已經(jīng)進(jìn)行了3-4個月，其中視覺方面會把360環(huán)視先做起來。

受限于前端產(chǎn)品的出貨周期和更新頻率，科大訊飛還推出了后裝產(chǎn)品小飛魚。謝信珍表示，小飛魚最大的優(yōu)勢是迭代速度會更快，每兩星期會有個新的功能。但是科大訊飛還是會把更多資源和精力押注在前裝，因?yàn)榍把b才有機(jī)會把系統(tǒng)和車機(jī)更深地結(jié)合，生產(chǎn)出更多功能。

小結(jié)

從車載智能語音小角度切入，科大訊飛沿著理解人和理解車兩個坐標(biāo)軸，給出了一個面向未來智能汽車的閉環(huán)方案。當(dāng)前來看，科大訊飛的優(yōu)勢仍然在語音，在車載視覺上的積累還比較初期，最后視覺與語音能不能很好融合，還要等待合作孵出一個落地的產(chǎn)品。