當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術(shù)》雜志
[導(dǎo)讀]摘 要:人臉表情識別因其廣泛的應(yīng)用領(lǐng)域與良好的發(fā)展前景,成為計(jì)算機(jī)視覺領(lǐng)域的一個研究熱點(diǎn)。文中綜合論述了表情識別的研究狀況與各類算法,并對其中的特征提取算法與表情分類算法進(jìn)行了簡單描述。常規(guī)的特征提取算法有基于幾何特征的提取方法、基于整體統(tǒng)計(jì)特征的提取方法、基于頻率特征率的提取方法和基于運(yùn)動特征的提取方法。常規(guī)的表情分類算法則從基于傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)兩個角度進(jìn)行介紹。

引 言

人類表情往往攜帶著比語言更為豐富的信息,因此,人臉表情識別是計(jì)算機(jī)視覺領(lǐng)域的一個重要研究課題。其研究成果可應(yīng)用于人機(jī)交互、心理疾病患者治療、情感計(jì)算與遠(yuǎn)程教育等領(lǐng)域,廣泛的應(yīng)用領(lǐng)域推動著人臉表情識別技術(shù)不斷發(fā)展。易積政 [1] 等提出了基于特征點(diǎn)矢量與紋理形變能量參數(shù)融合的人臉表情識別方法,該方法較傳統(tǒng)方法在識別率上有所提高。Taihao Li[2] 等結(jié)合主動外觀模型與神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉表情識別。Ross P Holder,Jules R Tapamo[3] 通過使用更精確的Scharr 梯度算子、主成分分析降維等方法提出了改進(jìn)的梯度局部三值模式(GLTP)。

1 表情識別綜述

1971 年,心理學(xué)家 Ekman 與Friesen 研究提出了人類的六種基本情感,即驚訝(Surprise)、悲傷(Sadness)、憤怒(Anger)、恐懼(Fear)、厭惡(Disgust)與高興(Happiness),與此對應(yīng),人類可產(chǎn)生相應(yīng)的面部表情。為了更好地描述人臉面部表情, 隨之誕生了不同的面部表情編碼方式。Ekman 與Keltner[4] 提出了面部運(yùn)動編碼系統(tǒng)(FACS),可根據(jù)面部肌肉和肌肉群的運(yùn)動對不同的面部表情加以區(qū)分。臉部動畫參數(shù)(FAPS)也是一種表情編碼方式,其根據(jù)臉部特征部位的運(yùn)動描述面部表情。另外,美國麻省理工學(xué)院,日本東京理科大學(xué)與哈爾濱工業(yè)大學(xué)等國內(nèi)外高校與研究機(jī)構(gòu)都對表情識別開展了相關(guān)研究工作。表情編碼識別系統(tǒng)如圖 1 所示。

在研究表情識別的過程中,建立了供測試使用的人臉表情數(shù)據(jù)庫。較為經(jīng)典的面部表情數(shù)據(jù)庫有JAFFE Database、The Extended Cohn-Kanade Dataset(CK+),GEMEP-FERA 等。 其中,JAFFE Database 是由十位日本女性分別做出 7 種表情 所構(gòu)成的 213 張圖像的集合,CK+ 則是一個具備表情強(qiáng)度從 低到高逐漸變化 [5] 的數(shù)據(jù)庫,如圖 2 所示。

人臉表情識別算法綜述

(a)FACS(b)FAPS

圖1 表情識別編碼系統(tǒng)

人臉表情識別算法綜述

圖 2 JAFFE 與CK+ 數(shù)據(jù)庫中的面部表情

人臉表情識別主要由三部分組成,即人臉檢測與預(yù)處理, 特征提取,表情分類。人臉檢測預(yù)處理旨在將目標(biāo)人臉從背景中分離出來,其中涉及人臉定位、圖像旋轉(zhuǎn)與歸一化等操作; 特征提取旨在提取出能夠表達(dá)人類情緒的面部特征,有多種特征提取方法,如局部二值模式(LBP)、彈性圖匹配法、等距映射等,本文只按照一種分類方式說明其中的部分特征提取方法;表情分類則依據(jù)提取出的面部特征將其歸類為具體的表情,其中有 K 最近鄰算法、稀疏表示分類法等。人臉表情識別流程如圖 3 所示。

人臉表情識別算法綜述

圖 3 人臉表情識別流程

2 特征提取算法綜述

人的面部表情具有大量特征。一張包含人臉的圖像擁有極大的信息量,且在視頻流中,同一人在不同幀下的表情模式也不盡相同,因此需要對人臉圖像進(jìn)行圖像降維處理并提取出五官特征、紋理特征等有效信息。這些有效信息的提取極為重要,能否準(zhǔn)確有效地提取出特征不僅影響著識別流程的速率,也極大地影響著識別準(zhǔn)確率。

2.1 基于幾何特征的提取方法

幾何特征的提取即針對二維圖像的人臉表情的顯著特征對面部五官進(jìn)行定位,可以得到五官的大小、位置及五官之間的相互比例等空間幾何信息,可通過這些信息進(jìn)行人臉表情識別?;谠摲椒ǖ哪P陀兄鲃有螤钅P停ˋSM),活動外觀模型(AAM)與尺度不變特征轉(zhuǎn)換。ASM最早由Cootes提出, 之后其針對ASM進(jìn)行改進(jìn),于1998年提出了AAM。該類提取方法存在五官遮擋問題,且當(dāng)光照、角度、人臉尺寸等重要識別分類信息丟失時,識別精度不高。

2.2 基于整體統(tǒng)計(jì)特征的提取方法

該類方法的主要思想是遍歷整幅圖像,盡可能多地提取 整幅圖像的特征信息。該類方法可以使用主成分分析(PCA) 去除人臉圖像中的混亂信息、噪聲和冗余;使用方差衡量去除 小方差的冗余信息,使用正交位數(shù)空間描述數(shù)據(jù)改變的方向。 但該方法只對符合高斯樣本即噪聲或不感興趣、信號比較微 弱的數(shù)據(jù)有效,導(dǎo)致數(shù)據(jù)具有較差的可分性。在 PCA 的基礎(chǔ) 上提出了獨(dú)立成分分析法,即 ICA(Independent Component Analysis,ICA)。ICA 將數(shù)據(jù)看作多個獨(dú)立分量的線性組合, 進(jìn)而獲取數(shù)據(jù)的獨(dú)立成分,因此具有較好的可分性。由于外界 背景環(huán)境的干擾,該方法在復(fù)雜背景環(huán)境下識別率會下降。

2.3 基于頻率特征率的提取方法

主要采用 Gabor 小波變換方法,該方法可以在頻域的不 同尺度,不同方向上提取相關(guān)特征。Gabor 方法先添加時間局 部化窗函數(shù),得到窗口傅里葉變換,因?yàn)樵摲椒o法聚焦,因 此研究人員加入了小波理論,結(jié)合成 Gabor 小波變換。該方 法在對人臉表情特征提取時,能夠有效提取不同細(xì)節(jié)程度的 圖像特征。但由于是低層次的特征,因此不易于直接用于特 征匹配。

2.4 基于運(yùn)動特征的提取方法

光流法。光流為圖像亮度模式的表觀運(yùn)動,能夠反映出 圖像的運(yùn)動,因此可以提取出圖像的運(yùn)動信息。光流算法先 假設(shè)體素和圖像像素守恒,評估兩次表情之間的細(xì)微形變, 可以得到圖像約束方程,求出圖像約束方程的解后計(jì)算變化 參數(shù)。該方法反應(yīng)了表情變化的本質(zhì),因此光照因素干擾較小, 但計(jì)算量龐大。

3 表情分類算法綜述

3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的表情分類算法

3.1.1 Bayes 分類算法

Bayes 分類是以貝葉斯定理為基礎(chǔ)的一類分類算法,貝葉斯定理屬于概率論的一種,在邊緣概率分布與隨機(jī)變量的條 件下,使用產(chǎn)生的新數(shù)據(jù)對已有數(shù)據(jù)做修改。樸素 Bayes 分類 算法是 Bayes 分類算法中較為簡單的一種。樸素 Bayes 分類算 法能夠根據(jù)待分類項(xiàng)符合的各個條件判別其所屬類別。由于 樸素 Bayes 模型假設(shè)特征屬性之間相互獨(dú)立,因此該分類方 法誤差率小,然而當(dāng)將其應(yīng)用于實(shí)際時效果不佳。

人臉表情識別算法綜述

3.1.2 支持向量機(jī)算法

1995 年,Cortes 與 Vapnik 提出了支持向量機(jī)(Support Vector Machine,SVM),即自動分類算法。SVM 能夠區(qū)分?jǐn)?shù)據(jù)類別的高維到一維投影,其任務(wù)是找到最佳決策邊界。在尋找最佳決策邊界的過程中,相繼引入了核函數(shù)、拉格朗日對偶與SMO 算法,SVM 算法不使用真正的向量而使用數(shù)量積進(jìn)行分類,因而減小了系統(tǒng)開銷,使得 SVM 算法更加優(yōu)化。相較于更先進(jìn)的神經(jīng)網(wǎng)絡(luò)算法,支持向量機(jī)擁有更快的運(yùn)算速度,計(jì)算時使用更少的訓(xùn)練樣本。支持向量機(jī)示意圖如圖 4 所示。

人臉表情識別算法綜述

3.1.3 HMM 模型

隱馬爾科夫模型(Hidden Markov Model,HMM)是一 種關(guān)于時序的概率生成模型。該算法描述了馬爾科夫過程, 但該過程包含隱含的未知參數(shù)。HMM 模型將人臉圖像看作 顯性序列,從已知的數(shù)據(jù)中確定隱含數(shù)據(jù),再利用隱含數(shù)據(jù) 進(jìn)行數(shù)據(jù)分析,因此適合進(jìn)行動態(tài)視頻流分析。黃小娟 [6] 等 通過優(yōu)化隱馬爾科夫模型參數(shù)提出了改進(jìn)的隱馬爾科夫表情 識別模型,使得該模型可更有效地應(yīng)用于表情識別中。HMM 模型示意圖如圖 5 所示。

人臉表情識別算法綜述

3.2 基于深度學(xué)習(xí)的表情分類算法

3.2.1 基于 CNN 的分類算法

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN) 是針對人工神經(jīng)網(wǎng)絡(luò)(ANN)的一種改進(jìn),其靈感來源于貓的初級視覺皮層,其權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更接近生物神經(jīng) 網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)由多個卷積層和頂端的全聯(lián)通層構(gòu)成,相 較于其他神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)還包括關(guān)聯(lián)權(quán)重與池化層。 CNN 利用損失函數(shù)判斷類別預(yù)測值與真實(shí)值間的差異,利用 激活函數(shù)解決非線性問題,采用正則化操作削減過擬合現(xiàn)象, 采用池化層操作降低網(wǎng)絡(luò)復(fù)雜度。上述使得 CNN 的訓(xùn)練速度 更快,計(jì)算量減少且能夠?qū)崿F(xiàn)圖像降維,使之能更好地處理 二維圖像,使用神經(jīng)網(wǎng)絡(luò)時需要采取的圖像預(yù)處理工作較少。 卷積神經(jīng)網(wǎng)絡(luò)示意圖如圖 6 所示。

人臉表情識別算法綜述

3.2.2 基于 DBN 的分類算法

2006 年,Geoffrey Hinton 提出了深度信念網(wǎng)絡(luò)。深度信 念網(wǎng)絡(luò)(Deep Belief Network,DBN)其結(jié)構(gòu)類似于人腦的認(rèn) 知過程,由多層受限玻爾茲曼機(jī)(RBM)構(gòu)成。RBM 由可見 層與隱層組成,可見層接受輸入,隱層提取特征,兩層雙向連接, 層內(nèi)各神經(jīng)元間無連接,可見層輸出作為隱層輸入。采取對比 散度的學(xué)習(xí)算法訓(xùn)練 RBM,得到使得訓(xùn)練樣本概率最大的權(quán) 值。多層 RBM 訓(xùn)練層經(jīng)調(diào)優(yōu)構(gòu)成 DBN。DBN 將低層輸出作 為高層輸入,再將高層輸出作為更高層輸入,是一個自下而上 的無監(jiān)督學(xué)習(xí)過程。采用 DBN 時需要為樣本集設(shè)定標(biāo)簽,學(xué) 習(xí)過程慢。施徐敢 [7] 等融合深度信念網(wǎng)絡(luò)與多層感知器進(jìn)行 人臉表情識別,該識別方法可達(dá)到的最好人臉表情正確識別 率為 90.95%。由于環(huán)境中光照等復(fù)雜因素的存在,Chen Li[8] 等將 DBN 與增強(qiáng)局部紋理特征相結(jié)合,克服了光照變化帶來 的影響。深度信念網(wǎng)絡(luò)示意圖如圖 7 所示。

人臉表情識別算法綜述

4 結(jié) 語

目前人臉表情識別是圖像處理領(lǐng)域的研究熱點(diǎn),人臉表 情庫越來越豐富。其特征提取算法包括基于幾何特征提取、 PCA 與 ICA 算法、Gabor 小波變換、光流法等。這些算法與 其他算法相結(jié)合,在解決圖像噪聲,人臉遮擋、角度,環(huán)境 光照等許多影響因素上有較好的處理效果,但同時也增大了系 統(tǒng)開銷。傳統(tǒng)的表情分類方法有 Bayes 分類算法、隱馬爾可 夫模型、支持向量機(jī) SVM 模型。傳統(tǒng)算法模型計(jì)算速度快, 但精度不高,因此在科研機(jī)構(gòu)中主要為深度學(xué)習(xí)方法,CNN 與 DBN 這類算法訓(xùn)練出的模型識別精度高,速率快,但訓(xùn)練 需要使用 GPU 等硬件加速,訓(xùn)練時更需要大量的表情庫,訓(xùn) 練周期長,難以在高??蒲袡C(jī)構(gòu)以外的場所進(jìn)行研發(fā)和使用。

綜上所述,人臉表情識別這一課題已經(jīng)擁有了較成熟的 研究成果,但缺點(diǎn)依然存在,需要不同算法取長補(bǔ)短,如將 深度學(xué)習(xí)與傳統(tǒng)算法結(jié)合等,算法的改進(jìn)仍然是一個漫長的 探索實(shí)踐過程。




本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉