解讀自動駕駛中智能感知技術(shù)的三大因素及車聯(lián)網(wǎng)V2X技術(shù)
年前,GCP硅谷專家咨詢邀請了三星北美研發(fā)中心高級經(jīng)理王凡博士,從自身專業(yè)角度解讀了在自動駕駛中智能感知技術(shù)的三大因素以及車聯(lián)網(wǎng)V2X技術(shù)。
王凡博士,亞利桑那大學(xué)碩士和博士畢業(yè),三星北美研發(fā)中心高級經(jīng)理,負責(zé)自動駕駛中的人工智能感知、路徑規(guī)劃和決策方向,同時負責(zé)戰(zhàn)略部門投資收購的咨詢建議。
以下為嘉賓觀點分享:
無人駕駛的核心技術(shù)有五個主要模塊:傳感器、定位、AI感知、路徑規(guī)劃和決策、車輛控制。傳感器包括視覺、雷達、通信、定位等不同類型,將信息傳遞給智能感知模塊,檢測車輛所處的環(huán)境。根據(jù)以上的感知結(jié)果,汽車決定最優(yōu)的路徑和決策,最后到達車輛控制和執(zhí)行,完成整個流程。此外定位是指車輛通過GPS或者是SLAM的方式確認自己在地圖的位置。
今天主要講的是人工智能感知,不過在此之前可以大概提一下行業(yè)內(nèi)發(fā)展比較大的方向,比如從傳感器角度來說,Velodyne的激光雷達市場占有率和利潤率都很高,成本都是在幾萬美元,接近整車價格,所以硅谷有很多創(chuàng)業(yè)者計劃把激光雷達的成本降到1000美元以下,實現(xiàn)類似性能。定位方面,我們知道最好的是RTK(載波相位差分技術(shù))這樣的實時定位系統(tǒng),但這個價格是比較貴的,比如市場常用的SBG定位傳感器大概有3萬美元,相對于整車而言成本很高。硅谷同樣有公司以十分之一的價格實現(xiàn)類似的功能。所以在傳感器方面有很多公司在做不同的研究。
自動駕駛中的人工智能感知技術(shù)在汽車上應(yīng)用人工智能感知的目的,就是為了讓計算機具備對周圍車輛/行人的距離、速度、朝向,交通標(biāo)識等所有環(huán)境信息的獲取和認知能力,進而進行合理的規(guī)劃和決策。之所以自動駕駛在近兩年有比較大的突破,感知技術(shù)發(fā)揮了至關(guān)重要的作用,其中深度學(xué)習(xí)的圖片識別能力甚至達到人眼的水平。這些更精確的算法成為自動駕駛商業(yè)化的前提。
主要有三個因素促進了人工智能感知技術(shù)的發(fā)展:有標(biāo)注的結(jié)構(gòu)化數(shù)據(jù)、深度學(xué)習(xí)算法以及計算力/計算平臺。
在訓(xùn)練數(shù)據(jù)方面,目前已經(jīng)有ImageNet、KitTI、Cityscapes等公開數(shù)據(jù)集,很多的初創(chuàng)公司都在用公有數(shù)據(jù)集進行一些初始模型的開發(fā)。但這些數(shù)據(jù)集并不是很適合于自動駕駛的需要,欠缺汽車行進過程中的環(huán)境因素。所以很多大的公司都在采集汽車駕駛的視頻影像,構(gòu)建自己的私有訓(xùn)練數(shù)據(jù)。私有數(shù)據(jù)標(biāo)注主要有公司內(nèi)部標(biāo)注和外包標(biāo)注兩種做法,根據(jù)公司自身的人力資源情況進行選擇。目前較大的外包數(shù)據(jù)標(biāo)注公司有數(shù)據(jù)堂,和采取眾包形式的CrowdFlower。隨著深度學(xué)習(xí)運用越來越頻繁,數(shù)據(jù)標(biāo)注公司前景還是比較廣闊的。
其次是深度學(xué)習(xí)算法。業(yè)界在做自動駕駛的時候很多是從計算機視覺來入手的,而計算機視覺包括了以CNN(卷積神經(jīng)網(wǎng)絡(luò))為核心的各種模型,比如YoLov2、SDD、Faster R-CNN、Mask R-CNN。這些算法有各自的優(yōu)勢,但是僅能在PC端發(fā)揮較佳的效果,在汽車行進并需要高速運算的過程中,這些算法的效率可能會打很大折扣。這就需要對模型進行優(yōu)化。國內(nèi)的代表性公司有商湯科技和格靈深瞳,硅谷也有很多類似的公司。
第三個是計算平臺。目前有三個比較大的趨勢。大部分在用的NVIDIA的GPU,比如DRIVE PX、Xavier等計算力很強的平臺,不過它們的功耗也很高。Google則針對人工智能框架TensorFlow發(fā)布了TPU計算平臺,但目前該平臺主要還是對內(nèi)狀態(tài)。此外就是其他專用于深度學(xué)習(xí)的芯片,在車輛的環(huán)境中以較小的模塊實現(xiàn)更強的感知計算功能。國內(nèi)在這方面做的最大的兩家是地平線和寒武紀(jì)。
車聯(lián)網(wǎng)V2X以上講的是比較傳統(tǒng)的單車人工智能方式,即傳感器——人工智能的感知識別——路徑規(guī)劃和決策——控制的線路。此外常提的就是車聯(lián)網(wǎng)(Vehicles to Everything,車與一切物體的信息交換)。之所以車聯(lián)網(wǎng)會比較火熱,主要原因是:單車的人工智能感知容易受限制,需要有極高的成功率才能上路駕駛,此前特斯拉的autopilot系統(tǒng)就因識別錯誤出了兩次車禍,而V2X是提高感知成功率的發(fā)展方向。比如,單車智能下的汽車無法看到走在前方車輛正前方的行人,通過V2X技術(shù),前車就能夠把感知到的信息傳遞給后車。還有紅綠燈檢測,在夜晚,自動駕駛有可能會誤把前方車輛的剎車燈看作紅燈導(dǎo)致行車事故,一旦車與道路設(shè)施信號實時通信,則避免了這個麻煩。
總結(jié)而言,車聯(lián)網(wǎng)主要包括以下幾個需求:車與后臺服務(wù)器互聯(lián),包括更新高清地圖、車載系統(tǒng)升級等;車與道路設(shè)施直接互聯(lián),比如紅綠燈、事故預(yù)警;車與車互聯(lián)。目前,我國官方在智能網(wǎng)聯(lián)汽車的相關(guān)文件中已經(jīng)對車聯(lián)網(wǎng)發(fā)展等級做了以下劃分,而歐美國家對此尚無清晰的定義,可見中國在車聯(lián)網(wǎng)領(lǐng)域是走在前面的。
目前,傳輸實時性、可靠性要求較低的“網(wǎng)聯(lián)輔助信息交互”技術(shù)已經(jīng)實現(xiàn),而網(wǎng)聯(lián)協(xié)同感知技術(shù)仍處于研究過程,最高級別為網(wǎng)聯(lián)協(xié)同決策與控制技術(shù)。嘉賓認為,當(dāng)?shù)缆飞嫌懈嗟淖詣玉{駛汽車時,車與車將在更大的交通協(xié)同下更合理地駕駛運作,但這對通信技術(shù)要求極高,落地時間會比較遠。
國際上有兩條車聯(lián)網(wǎng)技術(shù)路線:DSRC和Cellular V2X(LTE-V或5G)。前者即專用短程無線通信技術(shù),可以實現(xiàn)在特定小區(qū)域內(nèi)對高速運動下的移動目標(biāo)的識別和雙向通信,可實時傳輸圖像、語音和數(shù)據(jù)信息,該技術(shù)目前發(fā)展已相對成熟并開始應(yīng)用,具有低延時、可靠性的特點。有不少公司已將DSRC作為自己的產(chǎn)品并開始使用,自動駕駛卡車車隊就是一個很好的案例(一名司機駕車領(lǐng)隊,后車自動駕駛跟隨)。
第二類是基于4.5G的無線通信行業(yè)標(biāo)準(zhǔn)推出,以LTE蜂窩網(wǎng)絡(luò)作為基礎(chǔ),面向未來5G,是車聯(lián)網(wǎng)的專有協(xié)議。就像手機一樣,它有更廣的通信距離,有更大的系統(tǒng)容量(一個基站可以支持上百輛車的通信需求),有成本優(yōu)勢,有可靠性、低延時的特點。該技術(shù)起步較晚,但起點很高,目前該類市場還不是很擁擠。
Q&A環(huán)節(jié)Q:在感知方面最大的難點是什么?
A:難點有很多,嘉賓認為最大難點在特殊情況(罕見場景)下感知能否發(fā)揮感知能力,我們目前的訓(xùn)練數(shù)據(jù)能基本涵蓋常見的路況,但汽車遇到罕見的路況時還能否成果檢測出來,特斯拉的事故就跟此有關(guān)。目前感知成功率已經(jīng)很高,但最后1%的問題尚有待解決。
Q:有什么方式在可預(yù)見的幾年能很好地解決?
A:在真實場景下有些情況我們很難遇到,但在仿真環(huán)境下則能夠構(gòu)建,改進算法。
Q:車聯(lián)網(wǎng)在無人駕駛中的重要性?
A:現(xiàn)在我們還在無人駕駛的起步階段,大家在做的是如何推出一輛這樣的汽車,但在未來無人車變多的時候就需要考慮如何讓整個汽車交通更加安全,車聯(lián)網(wǎng)在解決這個問題占很重要的位置。
Q:車聯(lián)網(wǎng)目前有什么難點和機遇?
A:DSRC技術(shù)目前發(fā)展已比較成熟,Cellular V2X起步較晚,5G標(biāo)準(zhǔn)尚未確定,但大有可為。
Q:三星在無人車的哪個領(lǐng)域布局?
A:在今年的CES展,三星公司第一次公開無人駕駛的軟硬件集成平臺DRVLINE,面向車廠。相比于同類產(chǎn)品,DRVLINE具有開放性和模塊性,其他公司可以把自己的算法嵌入平臺。三星在無人駕駛的投入很高,此前花了80億美元收購哈曼電子,打入TIer1市場,還有很多的戰(zhàn)略合作和投資合作。