位于瑞士洛桑的最大普朗克計(jì)算機(jī)科學(xué)研究所和當(dāng)?shù)芈?lián)邦理工學(xué)院的研究人員,近日展示了一套基于單目像機(jī)的動(dòng)作捕捉方案:MonoPerfCap。
很難想象,如今往往需要通過龐大的實(shí)驗(yàn)室來完成的動(dòng)作捕捉項(xiàng)目,居然通過單目設(shè)備就能完成,而且還無需對(duì)人體進(jìn)行標(biāo)記??紤]到傳統(tǒng)的動(dòng)作捕捉往往需要捕捉3D和深度信息,單臺(tái)攝像設(shè)備是不能夠完成的,因此我們也十分期待它的效果。
單目相機(jī)完成動(dòng)作捕捉需要克服和完成的挑戰(zhàn)有很多,例如遮擋、深度數(shù)據(jù)等等,表現(xiàn)出來的情況可能會(huì)涉及到動(dòng)作連貫性、人物變形、錯(cuò)位、陰影等。
據(jù)青亭網(wǎng)了解,為了完成單目相機(jī)實(shí)現(xiàn)動(dòng)作捕捉的目標(biāo),研發(fā)團(tuán)隊(duì)決定利用卷積神經(jīng)網(wǎng)絡(luò)(CNN),通過稀疏的2D或3D人體姿態(tài)圖像檢測,來解決這個(gè)問題。簡單來講,MonoPerfCap方案大致分為3個(gè)步驟。
1,手持相機(jī)對(duì)被追蹤的人進(jìn)行360度旋轉(zhuǎn)掃描,在此過程中軟件將會(huì)檢測人與物理世界的比例,并以此來計(jì)算虛擬人物的數(shù)字骨骼。
2,軟件會(huì)模擬計(jì)算出人體數(shù)字骨骼的關(guān)節(jié)點(diǎn),在低維軌跡子空間的基礎(chǔ)上,通過時(shí)間段內(nèi)的連續(xù)動(dòng)作差異等計(jì)算機(jī)視覺方面的技術(shù)來推測出人體的運(yùn)動(dòng),并且這個(gè)過程還用到了卷積神經(jīng)網(wǎng)絡(luò)來不斷優(yōu)化,以此來彌補(bǔ)單目捕捉不足的弱勢。
3,通過自動(dòng)提取輪廓,并對(duì)人物紋理進(jìn)一步優(yōu)化的非剛性表面對(duì)齊方式,來提升輸入的匹配性。
這種動(dòng)作捕捉方案比較可以有效的追蹤,例如人體360度旋轉(zhuǎn)、舞蹈動(dòng)作等人體運(yùn)動(dòng)?! ?/p>
關(guān)于這套單目動(dòng)補(bǔ)方案定性和定量評(píng)估,該團(tuán)隊(duì)介紹其在準(zhǔn)確性、魯棒性和可處理的場景復(fù)雜度等方面,均明顯優(yōu)于以往任何的單目方案。
從演示視頻來看,這套單目動(dòng)補(bǔ)方案確實(shí)比較出色,尤其是柔性運(yùn)動(dòng)方面,雖然在部分細(xì)節(jié)方面可圈可點(diǎn),但考慮到其畢竟基于單目,總之值得點(diǎn)贊。
根據(jù)研究人員描述,該方案在準(zhǔn)確性和穩(wěn)定性方面已經(jīng)比之前大幅進(jìn)步,即便在復(fù)雜的物理背景下也可以進(jìn)行清晰的動(dòng)作捕捉。
那么,這套方案可應(yīng)用在哪些領(lǐng)域呢?
除了一些常規(guī)的娛樂場景外,最直接,聯(lián)系最密切的就是全息通話/AR視頻通話,人們可以直接和虛擬的全息人進(jìn)行自然的交流。并且,由于只需要一臺(tái)攝像機(jī)(現(xiàn)在的手機(jī)至少都有一個(gè)攝像頭了吧),入門門檻較低,因此有望被廣泛采用。
對(duì)于高度逼真的全息通話來講,MonoPerfCap可能還做不到,尤其是在面部表情、細(xì)節(jié)渲染方面,不過其作為娛樂化的應(yīng)用方案也是一個(gè)不錯(cuò)的選擇。
據(jù)悉,這項(xiàng)研究將于8月份的Siggraph計(jì)算機(jī)圖形峰會(huì)上進(jìn)行展示,并已經(jīng)公布相關(guān)學(xué)術(shù)論文,感興趣的可以自行閱讀。