深度學(xué)習(xí)能否運用到VR上？

時間：2020-07-17 07:57:01

關(guān)鍵字： alphago dnn vr 深度學(xué)習(xí)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 隨著谷歌人工智能AlphaGo與李世石的五局人機大戰(zhàn)落下帷幕，阿法狗最終以4：1大比分戰(zhàn)神李世石，人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強大能力展示在了人們面前

隨著谷歌人工智能AlphaGo與李世石的五局人機大戰(zhàn)落下帷幕，阿法狗最終以4：1大比分戰(zhàn)神李世石，人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強大能力展示在了人們面前。

| 什么是DNN？

那到底什么是DNN呢？DNN是近年人工智能領(lǐng)域的熱門，在語音識別、自動駕駛、筆跡識別等方面的應(yīng)用都極為成功。在人工智能領(lǐng)域，神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)系統(tǒng)的模型，由許多單向連接的神經(jīng)元組成，可根據(jù)鏈接神經(jīng)元的各種參數(shù)將輸入信號轉(zhuǎn)換為輸出信號。相比于普通的神經(jīng)網(wǎng)絡(luò)，深度神經(jīng)網(wǎng)絡(luò)（DNN）使用隱含的多層復(fù)雜結(jié)構(gòu)，以及非線性變換，來表達對數(shù)據(jù)的高度抽象。這些特征更接近于人類大腦，更容易實現(xiàn)人類大腦的某些功能，例如下圍棋所需要的腦功能。

阿法狗應(yīng)用了兩種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，即“策略網(wǎng)絡(luò)”和“價值網(wǎng)絡(luò)”來擬合局面策略函數(shù)和評估函數(shù)，可以說這就是阿法狗的兩個大腦。阿法狗的勝利引爆了DNN這一概念，在大數(shù)據(jù)當?shù)赖慕裉?，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到非常多的領(lǐng)域，成為了揭示科學(xué)原理、升級現(xiàn)有產(chǎn)業(yè)商業(yè)模式的重要工具。

| DNN如何應(yīng)用在手勢識別中呢？

那么如此炫酷的DNN能否應(yīng)用在大熱的VR行業(yè)？答案是肯定的。目前VR領(lǐng)域中應(yīng)用到DNN技術(shù)的包括語音識別、手勢識別等方面，筆者在這里主要介紹一下手勢識別算法中的DNN。

傳統(tǒng)的手勢識別方法主要有兩種：基于數(shù)據(jù)手套的手勢識別方法、基于計算機視覺的手勢識別方法。

而基于計算機視覺的手勢識別方法以其不依賴于設(shè)備，更自然的人機交互效果，更好的沉浸感成為當今研究的熱點?；谟嬎銠C視覺手勢識別從攝像機中得到手勢圖像信息，經(jīng)過適當?shù)臄?shù)據(jù)預(yù)處理之后從圖像中分割出手勢，對分割得到的手勢進行特征提取后，利用已經(jīng)建立好的手勢模板進行分類。

傳統(tǒng)的分類方式有模板匹配、基于指尖檢測方法等，但這些方法都需要人工從圖像提取出目標特征，編寫模板來匹配。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)被提出，基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)（DNN）的手勢識別也應(yīng)運而生，這種手勢識別算法相比于傳統(tǒng)手勢識別算法在各個方面均有非常大的優(yōu)勢。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的工作方式來自于同人腦視覺機理的類比學(xué)習(xí)，這種從原始輸入開始向更高層次不停抽象迭代的過程賦予了該模型高度抽象的能力，使得深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠非常有效地從大量有標簽數(shù)據(jù)中深度提取數(shù)據(jù)的特征信息，充分挖掘數(shù)據(jù)的內(nèi)在屬性和有價值的表征數(shù)據(jù)，然后組合低層特征為更加抽象的高層特征，而高級特征則是數(shù)據(jù)更高級、更本質(zhì)的描述，由此可以在分類問題上得到更優(yōu)的結(jié)果。

眾所周知，VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理，對于手勢識別技術(shù)更是如此，手部有非常多的關(guān)節(jié)，需要非常強的識別能力才可以準確的識別每個精細動作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進行訓(xùn)練，所使用數(shù)據(jù)越多模型性能越高，非常適合在VR環(huán)境下做手勢識別。

基于計算機視覺的手勢識別中，傳統(tǒng)算法無法直接有效地從圖像中提取出對目標有用的信息。而深度學(xué)習(xí)的學(xué)習(xí)能力卻異常強大，即使是復(fù)雜低分辨率圖像也能夠很好的提取出目標深度特征?；贒NN的手勢識別所需的圖像背景并不需要固定，算法甚至在一定范圍內(nèi)允許運動背景的存在，從而提高了識別的環(huán)境耐受力和精細度。

| DNN在手勢識別中如何實現(xiàn)？

接下來筆者將介紹一下具體的實現(xiàn)方法。

傳統(tǒng)的識別系統(tǒng)流程大體上可以分成檢測、識別、跟蹤這三個步驟，具體實現(xiàn)流程是：傳感器獲取信息，預(yù)處理，特征提取，特征選擇，再到最后的推理、預(yù)測或者識別。通常認為最后一部分是屬于機器學(xué)習(xí)的部分，這部分是整個系統(tǒng)的精髓所在，它能否從數(shù)據(jù)中學(xué)到有效的知識直接關(guān)系到整個系統(tǒng)能否按照人們期望的那樣工作，但同時也存在前期特征提取或者選擇不好的情況，這樣會影響系統(tǒng)性能。

而基于DNN的手勢識別就是讓機器自己去提取特征，不需要手工特征提取，強大的學(xué)習(xí)能力使得模型在復(fù)雜背景下也能取得理想效果，其手勢識別過程如下：

首先創(chuàng)建手勢識別采集系統(tǒng)，做運動目標檢測，并在檢測的同時提取出前景的即運動目標的部分信息，獲得手勢圖像。采集到手勢圖像之后根據(jù)不同應(yīng)用場景選擇合適的網(wǎng)絡(luò)協(xié)議，把數(shù)據(jù)傳輸?shù)接嬎闫脚_利用深度學(xué)習(xí)算法進行復(fù)雜背景手勢識別，并最終給出手勢識別結(jié)果。

| 基于DNN實現(xiàn)的VR會是什么樣的？

基于DNN算法的思想實現(xiàn)的VR產(chǎn)品，并使用單機GPU方法來加速深度網(wǎng)絡(luò)的訓(xùn)練和識別工作。手勢識別模組可以使用深度攝像頭實現(xiàn)手部近距離3D成像，結(jié)合DNN自主研發(fā)了一套數(shù)據(jù)處理算法，實現(xiàn)了高精度實時手部動作識別，既能跟蹤單個手指，識別每個手指細微的動作，也可擴展至跟蹤多只手。

這樣的VR產(chǎn)品的手勢識別具有捕捉精度高，響應(yīng)速度快，靈敏度高，可以不受環(huán)境光線強弱影響，室內(nèi)室外都可以使用。

不過目前市面上幾乎沒有基于DNN的手勢識別產(chǎn)品。筆者所知的G-Wearables自主研發(fā)的StepVR產(chǎn)品就是基于DNN算法實現(xiàn)的，但還未見到實物，可以期待一下。