近日,Mozilla的伊尼盧瓦·德博拉·拉吉(Inioluwa Deborah Raji)和紐約大學(xué)跨學(xué)科研究機(jī)構(gòu)AI Now Institute的技術(shù)研究員吉納維芙·弗里德(Genevieve Fried)就人臉識(shí)別數(shù)據(jù)研究發(fā)表了一篇名為About Face: A Survey of Facial Recognition Evaluation的論文。
論文就1976年至2019年之間的100多個(gè)臉部數(shù)據(jù)集進(jìn)行研究,其研究范圍包括來(lái)自超過(guò)1700萬(wàn)個(gè)調(diào)查對(duì)象的1.45億張圖像?!堵槭±砉W(xué)院技術(shù)評(píng)論》發(fā)文稱該論文是“有史以來(lái)規(guī)模最大的人臉識(shí)別數(shù)據(jù)研究,并且表明了深度學(xué)習(xí)的興起在多大程度上加劇了隱私的喪失”。
論文研究發(fā)現(xiàn),在深度學(xué)習(xí)對(duì)數(shù)據(jù)的爆炸式增長(zhǎng)的驅(qū)動(dòng)下,研究人員逐漸開始不征求人們同意,從而導(dǎo)致越來(lái)越多的人的個(gè)人照片在他們不知情的情況下被整合到監(jiān)視系統(tǒng)中。
論文主要確定了面部識(shí)別發(fā)展的四個(gè)歷史階段,分別為:第一階段(1964-1995)早期研究階段;第二階段(1996-2006)被稱為“新生物識(shí)別”的商業(yè)可行性階段;第三階段(2007-2013)不受限制設(shè)置的主流開發(fā)階段;第四階段(2014年-以后)深度學(xué)習(xí)的突破階段。
人臉識(shí)別的四大階段:隨著研究人員對(duì)技術(shù)準(zhǔn)確性要求的不斷提高,人臉識(shí)別數(shù)據(jù)集的規(guī)模呈指數(shù)增長(zhǎng)。
外媒就該論文對(duì)人臉識(shí)別的研究,總結(jié)出了9個(gè)令人恐懼又驚訝的結(jié)果:
1.人臉識(shí)別在學(xué)術(shù)環(huán)境中的表現(xiàn)與實(shí)際應(yīng)用之間有著巨大的鴻溝
兩位作者研究該項(xiàng)目的最主要原因之一是,為什么人臉識(shí)別在系統(tǒng)測(cè)試準(zhǔn)確率接近100%時(shí),在現(xiàn)實(shí)世界中的應(yīng)用依然存在嚴(yán)重缺陷。例如,人臉識(shí)別在識(shí)別黑人和棕色人種時(shí)準(zhǔn)確性較差,最近也有報(bào)道顯示,有三名黑人因被該技術(shù)錯(cuò)誤識(shí)別后被相繼逮捕,同時(shí)在這三起案件中,被技術(shù)錯(cuò)誤識(shí)別的人都是黑人。
2.美國(guó)國(guó)防部對(duì)該技術(shù)的最初發(fā)展負(fù)有責(zé)任
盡管人臉識(shí)別技術(shù)的開發(fā)始于學(xué)術(shù)環(huán)境,但國(guó)防部和美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)于1996年將650萬(wàn)美元撥款投入,創(chuàng)建了迄今為止最大的數(shù)據(jù)集,此后這項(xiàng)技術(shù)開始起步。政府對(duì)這一領(lǐng)域很感興趣,因?yàn)樵谟糜诒O(jiān)視時(shí),它與指紋識(shí)別不同,不需要人們積極主動(dòng)參與。
3.早期用于創(chuàng)建人臉識(shí)別數(shù)據(jù)的照片來(lái)自人像拍攝,這就產(chǎn)生了重大缺陷
在2000年代中期之前,研究人員積累數(shù)據(jù)庫(kù)的方式是讓人們坐下來(lái)拍照。由于現(xiàn)在的一些基本面部識(shí)別技術(shù)數(shù)據(jù)正是來(lái)自于此,所以人臉肖像技術(shù)的缺陷也產(chǎn)生了共鳴,即參與者類型單一并且無(wú)法準(zhǔn)確反映現(xiàn)實(shí)情況的階段設(shè)置。
4.當(dāng)人像拍攝不夠時(shí),研究人員便開始抓取Google并不再征求被攝對(duì)象的同意
2007年,一個(gè)名為“野生標(biāo)簽的面孔(Labeled Faces in the Wild)(LFW)”數(shù)據(jù)集的出現(xiàn),使研究人員開始直接從Google,F(xiàn)lickr和Yahoo下載圖像,而無(wú)需擔(dān)心是否同意,其中還包括兒童的照片。其他研究人員隨后匯編的名為“LFW +”的數(shù)據(jù)集,也放寬了對(duì)未成年人的納入標(biāo)準(zhǔn),使用帶有“嬰兒”,“少年”和“青少年”等搜索詞的照片來(lái)增加多樣性。雖然這使照片的類型更加豐富,但它也放棄了被攝對(duì)象的隱私權(quán)。
5.人臉識(shí)別的下一次繁榮來(lái)自Facebook
2014年,F(xiàn)acebook使用其用戶照片訓(xùn)練了一種稱為DeepFace的深度學(xué)習(xí)模型。Facebook展示了數(shù)百萬(wàn)張照片如何創(chuàng)建出更好地可以完成人臉識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò),從而使深度學(xué)習(xí)成為現(xiàn)代人臉識(shí)別的基石。
6.Facebook的大規(guī)模人臉識(shí)別活動(dòng)侵犯了用戶的隱私
由于Facebook利用其用戶上傳的照片進(jìn)行人臉識(shí)別,而未征得該用戶的同意,由此被聯(lián)邦貿(mào)易委員會(huì)(FTC)處以罰款,并向伊利諾伊州支付了一項(xiàng)和解金。
7.僅在公共數(shù)據(jù)集中,人臉識(shí)別就已經(jīng)在1770萬(wàn)人的人臉上進(jìn)行了訓(xùn)練
事實(shí)上,我們不知道在人臉識(shí)別技術(shù)發(fā)展的過(guò)程中,使用了多少人的照片,和這些人的真實(shí)身份。
8.人臉識(shí)別的自動(dòng)化促生了令人反感的標(biāo)簽系統(tǒng)以及不平等的代表性
人臉識(shí)別系統(tǒng)已經(jīng)超越了識(shí)別面部或人物的范圍,它們還可以以令人反感的方式標(biāo)記人物及其屬性,其中就包括一些諸如“胖子”、“雙下巴”、“大鼻子”、“大嘴唇”和“眼袋”等潛在侮辱性的標(biāo)簽。而研究也表明,人工智能中的歧視會(huì)強(qiáng)化現(xiàn)實(shí)世界中的歧視。
9.人臉識(shí)別技術(shù)的應(yīng)用范圍從政府監(jiān)視延伸到廣告定位
目前人臉識(shí)別技術(shù)不僅深耕于其本身的領(lǐng)域,其如今的發(fā)展也遠(yuǎn)超過(guò)1970年代其創(chuàng)造者的想象。論文中表明,從歷史背景上可以看出,政府從一開始就促進(jìn)和支持了這項(xiàng)技術(shù),以便于實(shí)現(xiàn)刑事調(diào)查和監(jiān)視。亞馬遜已經(jīng)將其有問(wèn)題的Rekognition技術(shù)出售給了無(wú)數(shù)警察部門就是其中一個(gè)例子。
論文在結(jié)論中闡明,人臉識(shí)別技術(shù)帶來(lái)了復(fù)雜的道德和技術(shù)挑戰(zhàn),忽視或者分解這種復(fù)雜性,對(duì)于那些部署不當(dāng)?shù)娜?,也包括我們自己是不利的?/p>
作者之一的拉吉希望這篇論文能夠激發(fā)研究人員思考深度學(xué)習(xí)帶來(lái)的性能提升、失去共識(shí)、細(xì)致的數(shù)據(jù)驗(yàn)證和詳盡的文檔記錄之間的權(quán)衡,她同時(shí)敦促那些想要繼續(xù)建立人臉識(shí)別功能的人考慮開發(fā)不同的技術(shù):“要讓我們真正嘗試使用該工具而又不傷及人,則需要重新設(shè)想我們所知道的一切。”