摘 要
人體識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一大類熱點(diǎn)問(wèn)題,其研究?jī)?nèi)容涵蓋了人體的監(jiān)測(cè)與跟蹤、手勢(shì)識(shí)別、動(dòng)作識(shí)別、人臉識(shí)別、性別識(shí)別和行為與事件識(shí)別等,有著非常廣泛的應(yīng)用價(jià)值。隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的機(jī)器學(xué)習(xí)算法中脫穎而出。隨機(jī)森林算法的實(shí)質(zhì)是一種樹預(yù)測(cè)器的組合,其中每一棵樹都依賴于一個(gè)隨機(jī)向量,森林中的所有的向量都是獨(dú)立同分布的。本文簡(jiǎn)單介紹了隨機(jī)森林的原理,并對(duì)近幾年來(lái)隨機(jī)森林在姿勢(shì)識(shí)別和人臉識(shí)別中的應(yīng)用進(jìn)行討論。
1.人體識(shí)別概述
人體識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一大類熱點(diǎn)問(wèn)題,其研究?jī)?nèi)容涵蓋了人體的監(jiān)測(cè)與跟蹤、手勢(shì)識(shí)別、動(dòng)作識(shí)別、人臉識(shí)別、性別識(shí)別和行為與事件識(shí)別等。其研究方法幾乎囊括了所有的模式識(shí)別問(wèn)題的理論與技術(shù),例如統(tǒng)計(jì)理論,變換理論,上下文相關(guān)性,分類與聚類,機(jī)器學(xué)習(xí),模板匹配,濾波等。人體識(shí)別有著非常廣泛的應(yīng)用價(jià)值。
絕大多數(shù)人臉識(shí)別算法和人臉表情分析算法在提取人臉特征之前,需要根據(jù)人臉關(guān)鍵點(diǎn)的位置(如眼角,嘴角)進(jìn)行人臉的幾何歸一化處理。即使在已知人臉粗略位置的情況下,人臉關(guān)鍵點(diǎn)精確定位仍然是一個(gè)很困難的問(wèn)題,這主要由外界干擾和人臉本身的形變?cè)斐伞?/p>
當(dāng)前比較流行的算法有:基于啟發(fā)式規(guī)則的方法、主成分分析(PCA)、獨(dú)立元分析(ICA)、基于K-L 變換、彈性圖匹配等。
2.隨機(jī)森林綜述
隨機(jī)森林顧名思義,使用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒(méi)有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的死后,就讓森林的每一棵決策樹分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類(對(duì)于分類算法),然后看看哪一類能被選擇最多,就預(yù)測(cè)這個(gè)樣本為那一類。
隨機(jī)森林是一種統(tǒng)計(jì)學(xué)習(xí)理論,其隨機(jī)有兩個(gè)方面:首先是在訓(xùn)練的每一輪中,都是對(duì)原始樣本集有放回的抽取固定數(shù)目的樣本點(diǎn),形成k個(gè)互不相同的樣本集。第二點(diǎn)是:對(duì)于每一個(gè)決策樹的建立是從總的屬性中隨機(jī)抽取一定量的屬性作分裂屬性集,這樣對(duì)于k個(gè)樹分類器均是不相同的。由隨機(jī)生成的k個(gè)決策樹組成了隨機(jī)森林。
對(duì)于每一個(gè)決策樹來(lái)講,其分裂屬性是不斷的選取具有最大信息增益的屬性進(jìn)行排列。整個(gè)隨機(jī)森林建立后,最終的分類標(biāo)準(zhǔn)采用投票機(jī)制得到可能性最高的結(jié)果。
下圖是隨機(jī)森林構(gòu)建的過(guò)程:
圖1 隨機(jī)森林構(gòu)建過(guò)程
3.隨機(jī)森林在人體識(shí)別中的應(yīng)用
3.1 隨機(jī)森林應(yīng)用于姿勢(shì)識(shí)別
以[1]一文來(lái)討論,論文中所涉及到的人體識(shí)別過(guò)程主要分為兩步,首先是,身體部位標(biāo)記:對(duì)于從單張景深圖像中對(duì)人體進(jìn)行分段,并標(biāo)記出關(guān)鍵節(jié)點(diǎn)。之后進(jìn)行身體關(guān)節(jié)定位,將標(biāo)記的各個(gè)人體部分重新映射到三維空間中,對(duì)關(guān)鍵節(jié)點(diǎn)形成高可靠的空間定位。
圖2 深度圖像-身體部位標(biāo)記-關(guān)節(jié)投影
文的最主要貢獻(xiàn)在于將姿勢(shì)識(shí)別的問(wèn)題轉(zhuǎn)化成了物體識(shí)別的問(wèn)題,通過(guò)對(duì)身體不同部位的空間位置的確定來(lái)實(shí)現(xiàn),做到了低計(jì)算消耗和高精確度。在身體部位標(biāo)記的過(guò)程中,將問(wèn)題轉(zhuǎn)化成了對(duì)每個(gè)像素的分類問(wèn)題,對(duì)于每個(gè)像素點(diǎn),從景深的角度來(lái)確定該點(diǎn)的局域梯度特征。該特征是點(diǎn)特征與梯度特征的良好結(jié)合。
舉個(gè)例子,對(duì)于不同點(diǎn)的相同屬性值的判別,如下圖,圖a中的兩個(gè)測(cè)量點(diǎn)的像素偏移間均具有較大的景深差,而圖b中的景深差則明顯很小。由此看出,不同位置像素點(diǎn)的特征值是有明顯差別的,這就是分類的基礎(chǔ)。
圖3 景深圖像特質(zhì)示例
文中對(duì)于決策樹的分裂屬性的選擇來(lái)說(shuō)。由于某兩個(gè)像素點(diǎn)、某些圖像特征選取的隨意性,將形成大量的備選劃分形式,選擇對(duì)于所有抽樣像素對(duì)于不同的分裂屬性劃分前后的信息熵增益進(jìn)行比較,選取最大的一組ψ=(θ, τ)作為當(dāng)前分裂節(jié)點(diǎn)。(信息增益與該圖像塊最終是否正確地分類相關(guān),即圖像塊歸屬于正確的關(guān)鍵特征點(diǎn)區(qū)域的概率。)
圖4 決策時(shí)分類說(shuō)明
決策樹的建立后,某個(gè)葉子節(jié)點(diǎn)歸屬于特定關(guān)鍵特征點(diǎn)區(qū)域的概率可以根據(jù)訓(xùn)練圖像最終分類的情況統(tǒng)計(jì)得到,這就是隨機(jī)森林在實(shí)際檢測(cè)特征點(diǎn)時(shí)的最重要依據(jù)。
在人體關(guān)節(jié)分類中,我們由形成的決策森林,來(lái)對(duì)每一個(gè)像素點(diǎn)的具體關(guān)節(jié)屬性進(jìn)行判斷,并進(jìn)行顏色分類。隨機(jī)森林這種基于大量樣本統(tǒng)計(jì)的方法能夠?qū)τ捎诠庹铡⒆冃缘仍斐傻挠绊?,?shí)時(shí)地解決關(guān)鍵特征點(diǎn)定位的問(wèn)題。
如圖所示,是對(duì)于景深圖像處理后的結(jié)果展示。
圖5 姿勢(shì)識(shí)別處理結(jié)果
應(yīng)該這樣說(shuō),這篇文章在算法的層面對(duì)隨機(jī)森林沒(méi)有太大的貢獻(xiàn)。在劃分函數(shù)的形式上很簡(jiǎn)單。這個(gè)團(tuán)隊(duì)值得稱道的地方是通過(guò)計(jì)算機(jī)圖形學(xué)造出了大量的不同體型不同姿勢(shì)的各種人體圖像,用作訓(xùn)練數(shù)據(jù),這也是成為2011年CVPR Best Paper的重要原因。正是因?yàn)檎撐牡某晒\(yùn)用于Kinect,在工業(yè)界有著巨大的作用,落實(shí)到了商用的硬件平臺(tái)上,推動(dòng)了隨機(jī)森林在計(jì)算機(jī)視覺(jué)、多媒體處理上的熱潮。
3.2 隨機(jī)森林應(yīng)用于人臉識(shí)別
基于回歸森林的臉部特征檢測(cè)通過(guò)分析臉部圖像塊來(lái)定位人臉的關(guān)鍵特征點(diǎn),在此基礎(chǔ)上條件回歸森林方法考慮了全局的臉部性質(zhì)。對(duì)于[2]進(jìn)行分析,這篇論文是2012年CVPR上的論文,本文考慮的是臉部朝向作為全局性質(zhì)。其主要描述的問(wèn)題是如何利用條件隨機(jī)森林,來(lái)確定面部10個(gè)關(guān)鍵特征點(diǎn)的位置。與之前不同的是,在隨機(jī)森林的基礎(chǔ)上,加入了面部朝向的條件約束。
圖6 臉部10個(gè)特征點(diǎn)
對(duì)于面部特征標(biāo)記的問(wèn)題轉(zhuǎn)化成了對(duì)大量圖像塊的分類問(wèn)題。類似于人體識(shí)別中的局域梯度特征識(shí)別。本文中,對(duì)于每一個(gè)圖像塊來(lái)說(shuō),從灰度值、光照補(bǔ)償、相位變換等圖像特征,以及該圖像塊中心與各個(gè)特征點(diǎn)的距離來(lái)判斷圖像塊的位置特征。在決策樹的分裂屬性確定過(guò)程,依然使用“最大信息熵增益”原則。
圖7 條件隨機(jī)森林算法說(shuō)明
文中提出了更進(jìn)一步基于條件隨機(jī)森林的分類方法,即通過(guò)設(shè)定臉部朝向的約束對(duì)決策樹分類,在特征檢測(cè)階段能夠根據(jù)臉部朝向選擇與之相關(guān)的決策樹進(jìn)行回歸,提高準(zhǔn)確率和降低消耗。此論文還對(duì)條件隨機(jī)森林,即如何通過(guò)臉部朝向?qū)Q策進(jìn)行分類進(jìn)行了說(shuō)明,但這與隨機(jī)森林算法沒(méi)有太大關(guān)系,這里就不再繼續(xù)討論了。隨機(jī)森林這種基于大量樣本統(tǒng)計(jì)的方法能夠?qū)τ捎诠庹?、變性等造成的影響,?shí)時(shí)地解決關(guān)鍵特征點(diǎn)定位的問(wèn)題。
另一篇文章[3]對(duì)于臉部特征標(biāo)記,提出了精確度更高、成本更低的方法。即,基于結(jié)構(gòu)化輸出的隨機(jī)森林的特征標(biāo)記方式。文中將面部劃分為20個(gè)特征點(diǎn),對(duì)于各個(gè)特征點(diǎn)來(lái)說(shuō),不僅有獨(dú)立的圖像塊分類標(biāo)記,還加入了例如,點(diǎn)4,對(duì)于其他嘴唇特征點(diǎn)3,18,19的依賴關(guān)系的判斷。這樣的方法使特征點(diǎn)標(biāo)記準(zhǔn)確率大大增加。
該方法依然是使用隨機(jī)森林的方法,有所不同的是引入了如式中所示的與依賴節(jié)點(diǎn)之間的關(guān)系。對(duì)于決策樹的建立依然是依賴信息熵增益原則來(lái)決定,葉子節(jié)點(diǎn)不僅能得到特征的獨(dú)立劃分還會(huì)得到該特征對(duì)依賴特征的貢獻(xiàn),最終特征節(jié)點(diǎn)的判斷會(huì)綜合原始投票及空間約束。
圖8 臉部特征標(biāo)記
圖9 決策樹依賴關(guān)系
例如當(dāng)對(duì)下圖中人臉特征點(diǎn)進(jìn)行分類時(shí),使用簡(jiǎn)單的隨機(jī)森林方法,經(jīng)過(guò)判斷會(huì)將各個(gè)點(diǎn)進(jìn)行標(biāo)注,可以看到 紅色的點(diǎn),標(biāo)注出的鼻子特征。如果利用依賴節(jié)點(diǎn)進(jìn)行判斷,鼻子的點(diǎn)會(huì)被局限在其他鼻子特征點(diǎn)的周圍,進(jìn)行疊加后,得到了這個(gè)結(jié)果。顯然,對(duì)于此節(jié)點(diǎn)的判斷,利用結(jié)構(gòu)輸出的方式,準(zhǔn)確度更高了。
圖10 結(jié)構(gòu)化輸出結(jié)果
4.隨機(jī)森林總結(jié)
大量的理論和實(shí)證研究都證明了RF具有很高的預(yù)測(cè)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合。可以說(shuō),RF是一種自然的非線性建模工具,是目前數(shù)據(jù)挖掘算法最熱門的前沿研究領(lǐng)域之一。具體來(lái)說(shuō),它有以下優(yōu)點(diǎn):
1.通過(guò)對(duì)許多分類器進(jìn)行組合,它可以產(chǎn)生高準(zhǔn)確度的分類器;
2.它可以處理大量的輸入變量;
3.它可以在決定類別時(shí),評(píng)估變量的重要性;
4.在建造森林時(shí),它可以在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì);
5.它包含一個(gè)好方法可以估計(jì)遺失的資料,并且,如果有很大一部分的資料遺失,仍可以維持準(zhǔn)確度。
6.它提供一個(gè)實(shí)驗(yàn)方法,可以去偵測(cè)變量之間的相互作用;
7.學(xué)習(xí)過(guò)程是很快速的;
8.對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合;
隨機(jī)森林的缺點(diǎn):
1.對(duì)于有不同級(jí)別的屬性的數(shù)據(jù),級(jí)別劃分較多的屬性會(huì)對(duì)隨機(jī)森林產(chǎn)生更大的影響,所以隨機(jī)森林在這種數(shù)據(jù)上產(chǎn)出的屬性權(quán)值是不可信的;
2.單棵決策樹的預(yù)測(cè)效果很差:由于隨機(jī)選擇屬性,使得單棵決策樹的預(yù)測(cè)效果很差。
參考文獻(xiàn):
[1] Shotton, J.; Fitzgibbon, A.; Cook, M.; Sharp, T.; Finocchio, M.; Moore, R.; Kipman, A.; Blake, A., “Real-time human pose recognition in parts from single depth images,”Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on , vol., no., pp.1297,1304, 20-25 June 2011
[2] Dantone M, Gall J, Fanelli G, et al. Real-time facial feature detection using conditional regression forests[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2578-2585.
[3] Heng Yang, Ioannis Patras, “Face Parts Localization Using Structured-output Regression Forests”, ACCV2012, Dajeon, Korea.
轉(zhuǎn)載請(qǐng)注明來(lái)自36大數(shù)據(jù)(36dsj.com):36大數(shù)據(jù) » 計(jì)算機(jī)視覺(jué):隨機(jī)森林算法在人體識(shí)別中的應(yīng)用
愛(ài)盈利(aiyingli.com) 移動(dòng)互聯(lián)網(wǎng)最具影響力的盈利指導(dǎo)網(wǎng)站。定位于服務(wù)移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)者,移動(dòng)盈利指導(dǎo)。我們的目標(biāo)是讓盈利目標(biāo)清晰可見(jiàn)!降低門檻,讓缺乏經(jīng)驗(yàn)、資金有限的個(gè)人和團(tuán)隊(duì)獲得經(jīng)驗(yàn)和機(jī)會(huì),提高熱情,激發(fā)產(chǎn)品。