機(jī)器人在復(fù)雜的環(huán)境下如何進(jìn)行視覺識(shí)別
掃描二維碼
隨時(shí)隨地手機(jī)看文章
我們都知道,人類有學(xué)習(xí)的能力。由于人類不斷的追求學(xué)習(xí)和進(jìn)步,我們今天才處于一個(gè)美好的文明社會(huì)。百科上是這么定義學(xué)習(xí)的:學(xué)習(xí)是通過閱讀、觀察、實(shí)踐等手段獲得知識(shí)或技能的過程,是使得個(gè)體得到持續(xù)性變化的行為方式。
在工業(yè)革命過后,關(guān)于機(jī)器學(xué)習(xí)的話題不停被人們提及和研究。不難想象,具備有學(xué)習(xí)能力的機(jī)器人,由于經(jīng)驗(yàn)可以被無窮無盡的芯片儲(chǔ)存,機(jī)器人做出的判斷將越來越精準(zhǔn),犯錯(cuò)的幾率也將趨于零。正因?yàn)檫@些優(yōu)勢(shì),機(jī)器學(xué)習(xí)被應(yīng)用在了高級(jí)的、復(fù)雜條件下的視覺識(shí)別、決策判定等領(lǐng)域。
最近,某著名手機(jī)品牌又火了一把,它可以通過攝像頭,識(shí)別人臉并完成解鎖手機(jī)等功能。有趣的是,不管主人造型怎么變化,它都能認(rèn)出主人的臉。
實(shí)際上,該手機(jī)搭載有神經(jīng)網(wǎng)絡(luò)芯片,通過機(jī)器學(xué)習(xí),它能不斷的記住主人在每個(gè)造型下的微小區(qū)別(積累經(jīng)驗(yàn))并進(jìn)行橫向?qū)Ρ?,最終它將基本不會(huì)認(rèn)錯(cuò)人。同樣的,在RoboMaster2017的賽場(chǎng)上,有著一個(gè)九宮格大能量機(jī)關(guān)。這是當(dāng)前版本的賽場(chǎng)中,唯一需要用到機(jī)器學(xué)習(xí)式視覺識(shí)別的人工智能機(jī)關(guān)。
激活機(jī)關(guān)的過程有些復(fù)雜。機(jī)器人先要識(shí)別上方的LED數(shù)字燈,按照先后順序,依次識(shí)別并擊打下方每1.5秒就變換一次位置的手寫體數(shù)字,連續(xù)5次擊打成功即可激活機(jī)關(guān)。
我們來看下這個(gè)機(jī)關(guān)的難點(diǎn):上方數(shù)碼管為有序、隨機(jī)變化的固定形態(tài)數(shù)字,下方九宮格為每1.5秒隨機(jī)變化位置和字體的手寫體數(shù)字,1.5秒內(nèi)只要錯(cuò)了一個(gè)就要重頭開始。手寫體數(shù)字舉例如下:面對(duì)各種字體的數(shù)字一,若按照上一期的傳統(tǒng)視覺方法來識(shí)別,機(jī)器人需要將這五種情況“背下來”。但是,萬一比賽出現(xiàn)了第6種數(shù)字一,機(jī)器人就會(huì)徹底蒙圈了:“這是啥?沒見過,不認(rèn)識(shí)。
通過上面兩個(gè)例子,我們可以知道,RoboMaster賽場(chǎng)中的大能量機(jī)關(guān)屬于更高級(jí)的、復(fù)雜條件下的視覺識(shí)別難題,需要用機(jī)器學(xué)習(xí)來解決。機(jī)器人具備機(jī)器學(xué)習(xí)的能力,實(shí)際上是在說它的計(jì)算機(jī)程序具備機(jī)器學(xué)習(xí)的能力。
一個(gè)計(jì)算機(jī)程序不斷地實(shí)戰(zhàn),過程中不斷累積經(jīng)驗(yàn),自己提高解決問題的能力,則認(rèn)為該程序具有機(jī)器學(xué)習(xí)能力。簡(jiǎn)單說,就是丟給機(jī)器一大堆樣本范例,讓它自己學(xué)習(xí)理解,再舉一反三,解決范例以外的問題如果是經(jīng)過機(jī)器學(xué)習(xí)訓(xùn)練的機(jī)器人呢?只要訓(xùn)練得當(dāng),哪怕蘿卜君變異成白蘿卜,變成炒蘿卜絲,都逃不過它的法眼,一眼看穿!
要想讓機(jī)器人能通過程序?qū)W習(xí),首先需要搭建機(jī)器學(xué)習(xí)系統(tǒng)的架構(gòu)。前人栽樹,后人乘涼。對(duì)于初學(xué)者來說,大部分常見的架構(gòu)都是搭建好的,有些甚至只需要在軟件中敲入幾行代碼就能完成一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)的搭建。由谷歌開發(fā)的TensorFlow,在機(jī)器學(xué)習(xí)研究領(lǐng)域中較為主流,其代碼質(zhì)量高、成熟度高。