在談?wù)撚?jì)算機(jī)視覺時(shí),“追蹤”一詞經(jīng)常出現(xiàn)。追蹤的種類有很多,具體需要取決于追蹤內(nèi)容,追蹤方式,以及要實(shí)現(xiàn)的目標(biāo)。在這篇博文中,英特爾向我們介紹了不同類型的追蹤,它們在上層方面的工作方式,以及潛在的用例。
1. 骨骼追蹤
骨骼追蹤的存在已有一段時(shí)間,而你以前可能已經(jīng)見過,只是沒有意識(shí)到而已。微軟Kinect是最早的消費(fèi)者骨骼追蹤示例之一,它主要是利用人體運(yùn)動(dòng)數(shù)據(jù)來支持玩家與游戲交互。
骨骼追蹤系統(tǒng)通常使用深度攝像頭來獲得最可靠的實(shí)時(shí)結(jié)果,但同時(shí)可以使用帶有開源軟件的2D攝像頭并以較低的幀頻追蹤骨骼。
簡而言之,骨骼追蹤算法可識(shí)別一個(gè)或多人的存在,以及他們頭部,身體和四肢的位置。某些系統(tǒng)同時(shí)可以追蹤手部或特定手勢,但并非所有骨骼追蹤系統(tǒng)都如此。大多數(shù)系統(tǒng)可以識(shí)別一系列的關(guān)節(jié),如肩膀、肘部、腕部。然后,系統(tǒng)將在所有已識(shí)別的關(guān)節(jié)之間繪制線條,并用某種元素來代表頭部/頸部。
任何種類的深度攝像頭都可以幫助骨骼追蹤系統(tǒng)消除重疊/遮擋對象或肢體之間的歧義,并且相較于純2D攝像頭算法進(jìn)一步適應(yīng)不同的光照條件。今天,一系列的骨骼追蹤解決方案都支持英特爾實(shí)感深度攝像頭。
對于更多關(guān)于骨骼追蹤的見解,你可以參閱以下這個(gè)視頻(Philip Krejov介紹了用英特爾實(shí)感深度攝像頭來在VR/AR追蹤進(jìn)行身體追蹤)。
2. 手勢追蹤和手部追蹤
手勢追蹤和手部追蹤容易混淆,而它們確實(shí)存在共同點(diǎn):兩者都允許用戶使用手部來與某種形式的數(shù)字內(nèi)容進(jìn)行交互。但是,我們通常可以將手勢追蹤視為僅限于配合手指姿態(tài)的特定手形,比如說拳頭或OK手勢。這種系統(tǒng)的優(yōu)點(diǎn)是,它通??梢砸愿咧眯哦茸R(shí)別手勢,缺點(diǎn)是人類用戶通常最多只能記住五個(gè)手勢及其代表意思。要訓(xùn)練用戶掌握具有更多手勢的復(fù)雜系統(tǒng),并且不會(huì)混淆,這通常需要更長的時(shí)間。
手部追蹤系統(tǒng)通常沒有手勢追蹤系統(tǒng)明確,而它與骨骼追蹤類似。大多數(shù)手部追蹤系統(tǒng)一般是識(shí)別手指關(guān)節(jié)和骨骼,通常是用某種深度攝像頭來幫助解決遮擋和歧義情況。與單個(gè)手勢系統(tǒng)相比,手部追蹤系統(tǒng)允許用戶與數(shù)字內(nèi)容進(jìn)行更復(fù)雜的交互,因?yàn)楦鱾€(gè)手指可以通過多種方式與虛擬內(nèi)容交互,如移動(dòng)對象,縮放對象,按壓虛擬按鈕等等。
3. 對象追蹤
對象追蹤涉及兩個(gè)通常與之關(guān)聯(lián)的獨(dú)立功能:對象檢測和分類;追蹤對象移動(dòng)的目標(biāo)位置。利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí),我們可以使用多種方法來檢測對象。機(jī)器學(xué)習(xí)涉及利用已分類和標(biāo)記的數(shù)千幅圖像來訓(xùn)練系統(tǒng),并通過所述數(shù)據(jù)識(shí)別新圖像中的未知對象。你可以訪問這個(gè)頁面進(jìn)行嘗試,系統(tǒng)可識(shí)別你上傳或鏈接的任何圖像。
對于視頻或?qū)崟r(shí)攝像頭饋送,一旦檢測到對象,你就可以以類似的方式逐幀操作,從而追蹤圍繞所述對象的邊界框。例如,在視頻中逐幀追蹤車輛。
4. 人像追蹤
取決于追蹤系統(tǒng)的最終目標(biāo),人像追蹤可以看作是對象追蹤(如確定商店中購物者的數(shù)量)或骨骼追蹤(支持人們與數(shù)字標(biāo)牌交互)的子集。根據(jù)用例的不同,你可以采用手勢追蹤方法或骨骼追蹤方法,或通過對象追蹤方法來識(shí)別一幀中的人像。
5. 眼動(dòng)追蹤/注視點(diǎn)追蹤
眼動(dòng)追蹤/注視點(diǎn)追蹤允許你僅使用眼睛來與數(shù)字系統(tǒng)進(jìn)行交互。眼動(dòng)追蹤系統(tǒng)涉及指向某人面部或靠近其眼睛的攝像頭(深度攝像頭或其他)。通過追蹤眼睛的運(yùn)動(dòng)(特別是瞳孔),系統(tǒng)可以測量用戶的視線方向。這在常規(guī)分析中非常有用:能夠確定用戶關(guān)注的內(nèi)容元素可以提供有價(jià)值的用戶體驗(yàn)見解。它在輔助功能解決方案中同樣非常有用,因?yàn)檠蹌?dòng)追蹤可以減少或消除通過鼠標(biāo)鍵盤來與屏幕進(jìn)行交互的需求。例如,對于腕道癥候群患者而言,基于眼動(dòng)追蹤的交互可能會(huì)感覺更舒適。Eyeware是支持英特爾實(shí)感D400系列深度攝像頭進(jìn)行眼動(dòng)追蹤/注視點(diǎn)追蹤的軟件。
6. SLAM追蹤
即時(shí)定位于地圖構(gòu)建(SLAM)是一個(gè)不同于上面所述追蹤方案的概念。主要區(qū)別在于,SLAM設(shè)備能夠追蹤自身相對于世界的運(yùn)動(dòng),它不是追蹤攝像頭視場內(nèi)的對象的運(yùn)動(dòng)。諸如英特爾實(shí)感追蹤攝像頭T265這樣的SLAM設(shè)備結(jié)合了慣性傳感器和來自兩個(gè)攝像頭的視覺輸入,從而能夠精確追蹤自身在空間中的運(yùn)動(dòng)。這種技術(shù)在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)頭顯中非常有用。微軟Hololens,以及Rift S和Oculus Quest都采用了自家的SLAM追蹤方法(有時(shí)稱為內(nèi)向外追蹤)。SLAM追蹤對于機(jī)器人技術(shù)和無人機(jī)同樣十分有用,因?yàn)榇_定某物在的位置,以及它在空間中的移動(dòng)方式可允許其精確地導(dǎo)航世界。