在深度偽造領(lǐng)域,或者研究人員所謂的“合成媒體”領(lǐng)域,大部分注意力都集中在可能對(duì)現(xiàn)實(shí)造成嚴(yán)重破壞的換臉以及其他深度學(xué)習(xí)算法帶來(lái)的危害上,例如模仿某人的寫(xiě)作風(fēng)格和聲音。但是合成媒體技術(shù)的另一個(gè)分支正取得快速進(jìn)步,即人體深度偽造。
2018年8月,美國(guó)加州大學(xué)伯克利分校的研究人員發(fā)布了名為《人人皆為舞王》(Everybody Dance Now)的論文和視頻,展示了深度學(xué)習(xí)算法如何將專(zhuān)業(yè)舞者的動(dòng)作轉(zhuǎn)移到業(yè)余愛(ài)好者身上的場(chǎng)景。雖然這種技術(shù)依然處于早期階段,但它表明機(jī)器學(xué)習(xí)研究人員正在應(yīng)對(duì)更困難的任務(wù),即創(chuàng)建全身深度偽造視頻。
同樣在2018年,由德國(guó)海德堡大學(xué)圖像處理合作實(shí)驗(yàn)室(HCI)和科學(xué)計(jì)算跨學(xué)科中心(IWR)的計(jì)算機(jī)視覺(jué)教授比約恩·奧默爾(Bj?rn Ommer)博士領(lǐng)導(dǎo)的研究小組,發(fā)表了一篇關(guān)于教授機(jī)器以逼真形態(tài)渲染人類(lèi)身體運(yùn)動(dòng)的論文。今年4月,日本人工智能(AI)公司Data Grid開(kāi)發(fā)了一種AI應(yīng)用,它可以自動(dòng)生成不存在的人的全身模型,并可以將其應(yīng)用到時(shí)尚和服裝行業(yè)。
雖然很明顯,全身深度偽造技術(shù)具有有趣的商業(yè)應(yīng)用潛力,如在深度偽造舞蹈視頻或體育和生物醫(yī)學(xué)研究等領(lǐng)域,但在當(dāng)今社會(huì)中,惡意使用案例越來(lái)越令人擔(dān)憂。目前,全身深度偽造技術(shù)還不能完全愚弄人類(lèi)的眼睛,但就像任何深度學(xué)習(xí)技術(shù)一樣,它正慢慢取得進(jìn)步。全身深度偽造還需要多久就能變得與現(xiàn)實(shí)無(wú)法區(qū)分?這可能只是時(shí)間問(wèn)題。
為了創(chuàng)造深度偽造視頻,計(jì)算機(jī)科學(xué)家需要使用生成性對(duì)抗網(wǎng)絡(luò)(GANS)。這是由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成的,分別是合成器或稱(chēng)為生成網(wǎng)絡(luò),以及檢測(cè)器或稱(chēng)鑒別網(wǎng)絡(luò),這些神經(jīng)網(wǎng)絡(luò)在精煉的反饋回路中工作,以創(chuàng)建逼真的合成圖像和視頻。合成器利用數(shù)據(jù)庫(kù)創(chuàng)建圖像,而后者從利用其他的數(shù)據(jù)庫(kù),確定合成器給出的圖像是否準(zhǔn)確和可信。
第一次惡意使用深度偽造技術(shù)出現(xiàn)在Reddit上,像斯嘉麗·約翰遜(Scarlett Johansson)這樣的女演員的臉被換到色情演員身上。Fast.AI公司的雷切爾·托馬斯(Rachel Thomas)表示,當(dāng)前95%的深度偽造旨在用合成色情行為圖像騷擾某些人。他說(shuō):“這些深度偽造視頻中,有些并不一定使用了非常復(fù)雜的技術(shù)。但是,這種情況正逐漸發(fā)生改變?!?/p>
達(dá)特茅斯大學(xué)計(jì)算機(jī)科學(xué)系主席、專(zhuān)門(mén)研究打擊視頻偽造的圖像取證專(zhuān)家哈尼·法里德(Hany Farid)指出,深度偽造應(yīng)用Zao說(shuō)明了這項(xiàng)技術(shù)在不到兩年的時(shí)間里發(fā)展的速度有多快。法里德說(shuō):“從Zao身上,我發(fā)現(xiàn)這種技術(shù)已經(jīng)變得非常好,并且抹掉了很多人工痕跡,比如電影版本中的臉部閃爍問(wèn)題。雖然情況正在改善,但將其大規(guī)模運(yùn)行,下載給數(shù)百萬(wàn)人,依然很難。這也正是深度偽造技術(shù)成熟的標(biāo)志?!?/p>
海德堡大學(xué)的奧默爾教授領(lǐng)導(dǎo)著一個(gè)研究和開(kāi)發(fā)全身合成媒體的團(tuán)隊(duì)。與該領(lǐng)域的大多數(shù)研究人員一樣,該團(tuán)隊(duì)的總體目標(biāo)是理解圖像,并教授機(jī)器如何理解圖像和視頻。最終,他希望團(tuán)隊(duì)能夠更好地理解人類(lèi)是如何理解圖像的。
合成面部和整個(gè)身體的過(guò)程之間存在著關(guān)鍵性差異。奧默爾說(shuō),對(duì)人臉合成已經(jīng)進(jìn)行了許多研究,這其中有幾個(gè)原因:首先,任何數(shù)碼相機(jī)或智能手機(jī)都有內(nèi)置的面部檢測(cè)技術(shù),這項(xiàng)技術(shù)可用于微笑檢測(cè)等任務(wù),或用于識(shí)別觀眾正在看的人的身份。這樣的用例可以產(chǎn)生收入,以支持更多的研究。但是,正如奧默爾所說(shuō),它們也導(dǎo)致了“大量的數(shù)據(jù)集組裝、數(shù)據(jù)整理和獲取面部圖像,這些都是深度學(xué)習(xí)研究的基礎(chǔ)?!?/p>
其次,也是奧默爾更感興趣的,雖然每個(gè)人的臉看起來(lái)都不同,但當(dāng)把臉與整個(gè)人體進(jìn)行比較時(shí),它的變化可能更小。奧默爾解釋稱(chēng):“這就是為何對(duì)臉部的研究已經(jīng)到了瓶頸階段的原因,與整個(gè)人體相比,臉部研究已經(jīng)十分透徹,但身體有更多的可變性,處理起來(lái)也更復(fù)雜。如果你在朝那個(gè)方向研究,你會(huì)學(xué)到更多的東西。”
奧默爾不確定何時(shí)完全合成的身體將具有他和研究人員想要的質(zhì)量。然而,從惡意深度偽造技術(shù)的日益成熟來(lái)看,奧默爾注意到,即使沒(méi)有深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)智能、AI或其他技術(shù)創(chuàng)建的虛假圖像或視頻,人類(lèi)非常容易受到欺騙。美國(guó)眾議院議長(zhǎng)南?!づ迓逦?Nancy Pelosi)放慢速度的視頻讓她看起來(lái)像是喝醉了酒。這段視頻向奧默爾表明,這種簡(jiǎn)單扭曲的深度偽造技術(shù)即將出現(xiàn),并可能會(huì)被某些人所利用。
奧默爾說(shuō):“但是,如果你想讓它產(chǎn)生更大的吸引力,可能還需要幾年的時(shí)間,那時(shí)全身和其他深度偽造技術(shù)將變得更便宜,更普遍。研究社區(qū)本身已經(jīng)朝著這個(gè)方向前進(jìn),他們需要為我們看到的這種穩(wěn)定進(jìn)步負(fù)責(zé),算法很容易獲得,比如在Github上等等。所以,你可以從某些論文中找到可以下載的最新代碼,然后在沒(méi)有太多知識(shí)的情況下,應(yīng)用它即可?!?/p>