據英國《金融時報》報道,微軟目前已經悄然刪除其最大的公開人臉識別數據庫——MSCeleb。
MSCeleb數據庫2016年建立,擁有超過1000萬張圖像,將近10萬人的面部信息。微軟描述其為世界上最大的公開面部識別數據集,并用于培訓全球科技公司和軍事研究人員的面部識別系統。據了解,數據庫中的面孔來自公眾人物,但許多人并沒有授權微軟使用自己的面部照片。相反,微軟是通過“知識共享”許可來抓取圖像和視頻的。根據“知識共享”許可,你可以將照片用于學術研究,但照片中的人物并不一定授權許可,而是擁有版權所有者授權。
微軟技術與研究院首席研究員 / 研究經理張磊博士曾對外表示,MS-Celeb-1M 的目標是識別百萬人臉,是計算機視覺內最大規(guī)模的分類問題,并且其中一個人物對應一個 entity,綁定了知識庫,并且知識庫中提供了每個人的職業(yè),性別等等豐富的信息,從而解決了人物重名的問題,可以從識別達到認知。
雖然在微軟的認知中,最開始這個數據集是面向學術界做的,但后來,這一數據集被許多工業(yè)界的同行所使用。根據相關的引文資料,MS-Celeb-1M 數據庫已經被多商業(yè)機構所使用,比如說 IBM、松下電氣、阿里巴巴、輝達、日立、商湯科技、曠視科技等,甚至有消息稱,也有相關的軍事研究人員采用了這一數據庫來訓練面部識別系統。
“這個網站是用于學術用途,它是由一位已經不在Microsoft工作的員工運行的,并且已被刪除?!蔽④浄Q。不過,即使MSCeleb已被刪除,其內容仍可以從網絡上下載獲得?!澳悴荒茏寯祿煜АR坏┠惆l(fā)布它,人們下載它,它就存在于全世界的硬盤上?!卑l(fā)現MSCeleb數據庫侵權問題的柏林研究員AdamHarvey在接受媒體采訪時稱。
值得一提的是,伴隨著微軟刪除了 MS-Celeb-1M 數據庫,另外兩個學術單位也刪除了它們旗下的類似相關數據庫,包括由杜克大學研究人員建造的 Duke MTMC 監(jiān)控數據庫和斯坦福大學的 Brainwash 數據庫。