詳解 Amazon Go 三大核心技術(shù)
12月5日,亞馬遜發(fā)布AmazonGo震驚業(yè)界。雷鋒網(wǎng)第一時(shí)間研究了專(zhuān)利文件,并采訪資深計(jì)算機(jī)視覺(jué)算法工程師,最終出文從2份專(zhuān)利文件,一窺AmazonGo到底藏了什么黑科技?
今天雷鋒網(wǎng)特地采訪了無(wú)人零售商店創(chuàng)業(yè)者陳維龍為大家更加詳細(xì)地解讀AmazonGo以及無(wú)人零售商店項(xiàng)目。陳維龍畢業(yè)于中山大學(xué),曾親自參與并實(shí)施過(guò)多套類(lèi)似的無(wú)人零售解決方案系統(tǒng),對(duì)整個(gè)項(xiàng)目的流程化體系有著較深的認(rèn)知和實(shí)踐經(jīng)驗(yàn)。
AmazonGo系統(tǒng)構(gòu)成
陳維龍把AmazonGo系統(tǒng)“拆分”為三部分:人/貨架/進(jìn)出口。其中硬件軟件構(gòu)成如下表:
布局如下圖所示:
貨架墻壁上安裝多個(gè)攝像頭,多種傳感器埋在每層貨架的底部或頂部。攝像頭負(fù)責(zé)拍照,光幕/紅外傳感器負(fù)責(zé)制造一個(gè)水平面,如果用戶(hù)的手穿過(guò)此面表示用戶(hù)開(kāi)始實(shí)施某種動(dòng)作,提高圖像分析效率。壓力/紅外傳感器用來(lái)表示商品的位置和狀態(tài),為用戶(hù)的行為提供數(shù)據(jù)。
利用這些數(shù)據(jù)進(jìn)行深度學(xué)習(xí),建立商品—動(dòng)作—人的判別模型,提高系統(tǒng)反作弊/識(shí)別能力。
AmazonGo的核心技術(shù)是什么?
陳維龍向雷鋒網(wǎng)透露,其實(shí)AmazonGo的核心技術(shù)是反作弊/識(shí)別系統(tǒng),不管它能提供多強(qiáng)大的商業(yè)功能,作為無(wú)人超市系統(tǒng),反作弊/識(shí)別是它存在的第一要素。
在現(xiàn)有超市,通過(guò)便衣巡邏和監(jiān)控?cái)z像頭識(shí)別顧客行為是否合法,例如是放在購(gòu)物袋/車(chē)還是放在衣服里,將用戶(hù)的行為規(guī)范到指定的范圍,最后通過(guò)收銀員識(shí)別商品和顧客的對(duì)應(yīng)關(guān)系,成功解決了誰(shuí)對(duì)什么商品干了什么,從而達(dá)成交易。
其中人防和機(jī)防是反作弊系統(tǒng),負(fù)責(zé)解釋顧客行為,從而保證商品與顧客的關(guān)系,而收銀員負(fù)責(zé)確認(rèn)商品和顧客關(guān)系。在AmazonGo中,系統(tǒng)也要解決誰(shuí)對(duì)什么商品干了什么的問(wèn)題。
接下來(lái)的內(nèi)容分為大三塊,詳解Amazon Go是如何做的。
一、如何檢測(cè)和識(shí)別顧客的行為:拿走或放回?
陳維龍指出,顧客購(gòu)物行為非常豐富,從貨架的角度來(lái)看,核心動(dòng)作只有拿走或放回兩種。
不論如何,商品被從貨架拿走了,最大的可能就是被買(mǎi)走了,而被放回來(lái)就是你不需要了。如果能識(shí)別拿走或放回,那么就解決了核心問(wèn)題。根據(jù)AmazonGo專(zhuān)利顯示,它是這樣做的:
采集用戶(hù)的手進(jìn)入貨架平面前的圖像。
采集用戶(hù)的手離開(kāi)貨架平面后的圖像。
兩者對(duì)比,可以知道是拿出貨物還是放入貨物。
如果是拿起,進(jìn)入前的手和進(jìn)入后的手及手中的物品等特征是可區(qū)分的,這個(gè)特征與放入是相反的。簡(jiǎn)單說(shuō),如果是拿起,進(jìn)入之前手是空的,沒(méi)有商品的,離開(kāi)后是手里有物品的。放入則相反。那么如何識(shí)別手呢?從形狀和圖片顏色(膚色)可以辨別。在貨架前利用光幕或者紅外形成一個(gè)平面,就可以知道用戶(hù)的手到了那里。
除了圖片分析,傳感器也可以提供這樣的數(shù)據(jù)。多種數(shù)據(jù)結(jié)合,可判斷用戶(hù)行為是拿走還是放回。
二、如何準(zhǔn)確識(shí)別出被拿走的物品和被放回的物品?
我們知道,有了顧客動(dòng)作,還要識(shí)別動(dòng)作承受的商品,不然會(huì)出現(xiàn)張冠李戴的現(xiàn)象。陳維龍繼續(xù)解釋到,這部分分成兩個(gè)步驟來(lái)處理:識(shí)別被拿走的物品和識(shí)別放回的物品。
識(shí)別被拿走的物品
因?yàn)槲锲肥潜还蛦T人工放置的,所以該物品可以直接標(biāo)記到系統(tǒng)中,因此不用圖像識(shí)別是何種物品(它已經(jīng)被人工識(shí)別了)。用傳感器表示它被拿走即可。
在某些情況下,商品可能沒(méi)有被提起設(shè)置或者設(shè)置后被混亂了,那么此時(shí)需要圖像識(shí)別該位置現(xiàn)有的商品與應(yīng)該有的商品是否一致。例如,物品A被放在B物品處,如果只有上面提到的那種方式處理,就會(huì)被當(dāng)成物品B,不過(guò)這種情況較少。
如果是高置信度事件,可直接確認(rèn),更新(增加)物品清單,否則還有顧客協(xié)作確認(rèn)的環(huán)節(jié)。
識(shí)別被放回的物品
在放回物品前,可以通過(guò)物品清單確定用戶(hù)與物品的關(guān)系,這些物品的圖片被儲(chǔ)存在系統(tǒng)內(nèi)。
檢索圖片,與被放回物品進(jìn)行比較,識(shí)別物品。
高置信度即可判斷物品正確,更新(刪除)物品清單,否則還有顧客協(xié)作確認(rèn)的環(huán)節(jié)。
被放回的物品會(huì)存在錯(cuò)放位置的情況,識(shí)別后通知雇員整理。
不管是拿走還是放回,如果是低置信度事件,會(huì)被系統(tǒng)記錄分析。
對(duì)于正常的購(gòu)物,在固定區(qū)域的商品種類(lèi)單一,容易識(shí)別。對(duì)于被錯(cuò)放的物品,因?yàn)楦怕瘦^少識(shí)別難度和計(jì)算量不會(huì)顯著增加。但是對(duì)于故意作弊的行為,需要極大的計(jì)算資源識(shí)別。這個(gè)問(wèn)題后面討論。
三、對(duì)某商品進(jìn)行了某動(dòng)作的人是誰(shuí)?
根據(jù)資料顯示,AmazonGo在進(jìn)出口設(shè)置了“轉(zhuǎn)移區(qū)”,類(lèi)似現(xiàn)有超市的防盜門(mén),此門(mén)可掃描用戶(hù)二維碼識(shí)別進(jìn)出口的顧客。陳維龍解釋到,這里問(wèn)題的關(guān)鍵是AmazonGo需要實(shí)時(shí)識(shí)別“對(duì)某商品進(jìn)行了某動(dòng)作的人是誰(shuí)”。
從問(wèn)題可以發(fā)現(xiàn),解決這個(gè)問(wèn)題的關(guān)鍵還是要在貨架上入手,因?yàn)槿魏稳藢?duì)商品實(shí)施動(dòng)作的時(shí)候必須在貨架前。關(guān)于這部分細(xì)節(jié),AmazonGo專(zhuān)利給出的解釋是利用用戶(hù)位置信息定位進(jìn)行識(shí)別。
例如,張三站在貨架A前,此時(shí)A貨架商品被取走,那么就認(rèn)定張三購(gòu)買(mǎi)了商品。這里存在很大的隱患是張冠李戴問(wèn)題,因?yàn)閮H通過(guò)位置定位顧客,只要在此區(qū)域的用戶(hù)都可能被當(dāng)成購(gòu)買(mǎi)者,從而形成商品和顧客一對(duì)多的關(guān)系。如果這個(gè)位置定位區(qū)域限制在足夠小的區(qū)域,就能實(shí)現(xiàn)一一對(duì)應(yīng)關(guān)系。
AmazonGo使用的圖像分析和音頻分析。通過(guò)攝像頭可檢測(cè)用戶(hù)及其方位,天花板或貨架里的多個(gè)音頻可根據(jù)時(shí)差分析用戶(hù)位置。此外,天花板上的天線可用三角測(cè)量確定位置,用戶(hù)手機(jī)GPS也能提供定位。
關(guān)于室內(nèi)定位或擁擠區(qū)域定位問(wèn)題,一般的定位技術(shù)是無(wú)法解決的。目前國(guó)外有GPS定位到毫米級(jí)別,但是費(fèi)用極高,應(yīng)用很少。iBeacon技術(shù)也可以用于室內(nèi)定位,可達(dá)到厘米級(jí)別,但是僅限于IOS設(shè)備。
總的來(lái)說(shuō),AmazonGo反作弊/識(shí)別系統(tǒng)是通過(guò)“商品—識(shí)別動(dòng)作—識(shí)別承受動(dòng)作的商品—商品與用戶(hù)清單/用戶(hù)關(guān)聯(lián)”進(jìn)行運(yùn)作的。
對(duì)AmazonGo反作弊/識(shí)別系統(tǒng)而言,它只需要知道哪些商品被拿走或放回了,并且知道是誰(shuí)實(shí)施的,那么就知道是誰(shuí)購(gòu)買(mǎi)/放回了什么商品。最后在出口(轉(zhuǎn)移區(qū)),顧客刷卡確認(rèn)顧客與商品的關(guān)系即可。
商品識(shí)別問(wèn)題討論
此時(shí)有個(gè)疑問(wèn):故意作弊的行為,能識(shí)別動(dòng)作,但是識(shí)別商品難度較大,因?yàn)榇笮统猩唐贩N類(lèi)有10萬(wàn)種,依據(jù)現(xiàn)有的水平是無(wú)法解決的。
陳維龍就這一問(wèn)題給出以下解決方案:
限制特定種類(lèi)商品。從亞馬遜官方視頻中看到超市商品種類(lèi)與日常生活超市相比要少很多,而且形狀規(guī)格等都比較統(tǒng)一。
限制開(kāi)店區(qū)域和人群。在中高端市場(chǎng),用戶(hù)的可信度較高,超市防盜壓力減少。視頻中顯示的商品也趨向中高端市場(chǎng)。
特殊人群跟蹤。上面提高用戶(hù)行為被系統(tǒng)判定為低置信度事件會(huì)被記錄跟蹤分析,這部分人群需要單獨(dú)的技術(shù)限制和人工干預(yù)。
容忍作弊行為,加強(qiáng)非技術(shù)反作弊手段。雖然討論的是高科技含量的東西,但是就目前階段結(jié)合必要的人工手段能提到較好作用。