四、人臉識(shí)別的真實(shí)現(xiàn)狀
接下來(lái)我想給大家講講人臉識(shí)別的現(xiàn)狀和進(jìn)展。
這里面有一種分裂,怎樣一種分裂呢?
一些人工智能公司宣傳,他們一般都會(huì)把人臉識(shí)別的性能吹得非常懸,說(shuō)錯(cuò)誤率已經(jīng)達(dá)到億分之一的程度等等。雖然這是事實(shí),的確有時(shí)候我們發(fā)現(xiàn)有一些識(shí)別錯(cuò)誤率已經(jīng)低于億分之一,但這是有前提的,譬如說(shuō)靜態(tài)人臉識(shí)別:如擺拍等。
還有一種場(chǎng)景是門(mén)禁的應(yīng)用,人們?yōu)榱诉^(guò)一個(gè)通道,然后就盯著攝像頭,這時(shí)候成像條件都很好。但是對(duì)安防而言,更多時(shí)候被觀測(cè)的對(duì)象沒(méi)有意識(shí)到自己被觀測(cè),它的角度也不是很理想,離相機(jī)也比較遠(yuǎn),光照也比較復(fù)雜。而且整個(gè)目標(biāo)在運(yùn)動(dòng)中碰到照片時(shí),它的人臉識(shí)別結(jié)果也完全不一樣了。
很多公司認(rèn)為人臉識(shí)別已經(jīng)做得很好,但另一方面,如果大家去調(diào)查一下如果使用了人臉識(shí)別,尤其是使用動(dòng)態(tài)人臉識(shí)別的客戶,大多數(shù)客戶都認(rèn)為誤報(bào)率太高,而且高到基本上這個(gè)系統(tǒng)就沒(méi)有辦法使用。
1、是人臉技術(shù)不好,還是大家在撒謊?
今天趁這個(gè)機(jī)會(huì),我也想非常坦誠(chéng)地跟大家分享一下這里面的原因。到底是人臉識(shí)別技術(shù)還不夠好,還是大家在撒謊。
做人臉識(shí)別它的優(yōu)點(diǎn)是速度快,一張顯卡每秒鐘可產(chǎn)生幾百?gòu)埬樀奶卣?,完成?shù)千萬(wàn)張臉的比對(duì),這個(gè)目前已經(jīng)可以做到了。它的成本也低,使得這項(xiàng)技能可以快速?gòu)?fù)制、大規(guī)模地部署,性能很穩(wěn)定且可持續(xù)提升。人工智能的缺點(diǎn)是應(yīng)對(duì)復(fù)雜問(wèn)題應(yīng)對(duì)能力差,除此之外是對(duì)環(huán)境變化的適應(yīng)能力弱。
人類的智能跟人工智能相比,幾乎是完全相反的。
人類智能的優(yōu)點(diǎn)正好是人工智能的缺點(diǎn),人類對(duì)復(fù)雜問(wèn)題的應(yīng)對(duì)能力和對(duì)環(huán)境變化的適應(yīng)能力很強(qiáng),但缺點(diǎn)就是速度慢、成本高,比較難快速?gòu)?fù)制、不大可能大規(guī)模地部署、性能也不穩(wěn)定(容易受到精神狀態(tài)的影響)。
2、1比1的人臉驗(yàn)證
我們來(lái)看一下人工智能的不同應(yīng)用,先介紹下1:1的人臉驗(yàn)證。
在金融支付領(lǐng)域里面,有些公司開(kāi)發(fā)的軟件幫助客戶去驗(yàn)證用戶的身份。這類應(yīng)用本質(zhì)上是在回答一個(gè)問(wèn)題??蛻舻臄z像頭拍一張照片,然后將照片傳到后臺(tái),后臺(tái)知道驗(yàn)證的對(duì)象是誰(shuí),并且有驗(yàn)證對(duì)象的身份證照片。那么它要回答的問(wèn)題是“這兩個(gè)人是同一個(gè)人嗎?”,答案是“是”或者“否”。所以總共回答這么一個(gè)問(wèn)題。
3、1比N的人臉識(shí)別(靜態(tài)人臉比對(duì))
我們?cè)賮?lái)看一下1:N的人臉的識(shí)別,也叫靜態(tài)人臉對(duì)比。
假如客戶選擇一張照片,然后他擁有N個(gè)人的對(duì)比庫(kù)。舉個(gè)例子,比如在某個(gè)省的公安廳,這個(gè)省有5000萬(wàn)個(gè)有身份證的公民。這時(shí)候警方看到一個(gè)嫌疑人想調(diào)查這個(gè)人的身份,這個(gè)人是誰(shuí)?
在做這件事情的過(guò)程中,事實(shí)上人臉識(shí)別就要回答很多問(wèn)題。這個(gè)人是張三嗎?這個(gè)人是李四嗎?是王五嗎?然后它要回答N個(gè)問(wèn)題,可能還有一個(gè)最困難的問(wèn)題也就是第N+1個(gè)問(wèn)題:這個(gè)人可能誰(shuí)都不是。這就叫靜態(tài)人臉比對(duì)。很顯然,與人臉驗(yàn)證相比,靜態(tài)人臉比對(duì)就是更為復(fù)雜的問(wèn)題。因?yàn)樗偣惨卮鸬膯?wèn)題總數(shù)是N+1個(gè),當(dāng)這個(gè)N比較大的時(shí)候,問(wèn)題回答的難度和出錯(cuò)誤幾率就大大提升。
但靜態(tài)人臉比對(duì)使用的頻率比較低,只有當(dāng)客戶要做一次搜索時(shí)它才會(huì)使用。它使用的場(chǎng)景允許用戶參與交互和確認(rèn)。簡(jiǎn)單說(shuō)就像一個(gè)搜索引擎,我在搜索結(jié)果里挑一個(gè)我認(rèn)為對(duì)的,或者是我把搜索結(jié)果呈現(xiàn)的前幾名看上去都很像,分別調(diào)查后能夠快速幫客戶縮小調(diào)查范圍。
這種產(chǎn)品在過(guò)去一、兩年內(nèi)的推廣也比較快,而且可用性相對(duì)較高。
4、M比N人臉識(shí)別(動(dòng)態(tài)人臉比對(duì))
我們?cè)偻驴磥?lái)看一下M比N的人臉識(shí)別,通常這個(gè)叫動(dòng)態(tài)認(rèn)識(shí)。
何為動(dòng)態(tài)人臉識(shí)別?就是客戶安裝的攝像頭每看到一個(gè)人后,就在一個(gè)庫(kù)里去比對(duì)這個(gè)人是誰(shuí),“M”代表的就是攝像頭,或者網(wǎng)絡(luò)里所有攝像頭抓到的人臉數(shù)目。“N”就是對(duì)比庫(kù)中的目標(biāo)數(shù)目,抓到的每一張臉都得“問(wèn)”一遍:這是張三嗎?是李四嗎,那真的是王五嗎?然后對(duì)于這個(gè)人你要問(wèn)N+1個(gè)問(wèn)題。對(duì)于看到所有M個(gè)人,問(wèn)題的總數(shù)也就是M×N+1個(gè)。而且動(dòng)態(tài)人臉使用頻率非常高,因?yàn)樗且粋€(gè)全自動(dòng)體系。
以北京地鐵站為例,我聽(tīng)說(shuō)北京1000多個(gè)地鐵站里面平均每站都有上百個(gè)攝像頭,如果這里面100個(gè)攝像頭每個(gè)地鐵站流通8到10萬(wàn)人是很常見(jiàn)的,可能在一些比較繁忙的地鐵站有上百萬(wàn)人。
對(duì)于看到的每一個(gè)人都要回答N+1個(gè)問(wèn)題,如果這個(gè)N是一個(gè)很大的庫(kù),比如是一個(gè)擁有十幾萬(wàn)人的全國(guó)逃犯數(shù)據(jù)庫(kù),這就是一個(gè)天文數(shù)字。而且在這個(gè)使用場(chǎng)景中,它不存在用戶交互,客戶期待你最后產(chǎn)生報(bào)警,而且這個(gè)警報(bào)是值得信賴的。
我們先來(lái)看一下這個(gè)問(wèn)題:
一臺(tái)動(dòng)態(tài)人臉抓拍機(jī)每天產(chǎn)生以下問(wèn)題:首先假設(shè)每個(gè)相機(jī)每天看見(jiàn)1萬(wàn)張臉,在很多公共場(chǎng)所這并不是一個(gè)很夸張的假設(shè)。
我們假設(shè)對(duì)比庫(kù)里有1萬(wàn)個(gè)目標(biāo),這可能對(duì)公安來(lái)說(shuō)也不是一個(gè)大的目標(biāo)庫(kù)。如果基于該假設(shè)的話,這個(gè)相機(jī)每天要回答的問(wèn)題就是一億零一萬(wàn)個(gè)。如果人工智能每回答100萬(wàn)個(gè)人臉比對(duì)問(wèn)題就犯一個(gè)錯(cuò)誤,那么每一天在每一臺(tái)相機(jī)上就會(huì)犯100個(gè)錯(cuò)誤,也就是產(chǎn)生100個(gè)誤報(bào)或者漏報(bào)。
我剛才假設(shè)每回答100萬(wàn)個(gè)問(wèn)題才會(huì)犯一個(gè)錯(cuò)誤,其實(shí)也是非??鋸埖募僭O(shè),因?yàn)樵趧?dòng)態(tài)人臉識(shí)別里,很多時(shí)候人的面孔角度是不理想的,分辨率也不一定很理想,光線可能也不是很好,還可能有運(yùn)動(dòng)模糊。
這種情況下,如果哪個(gè)公司真的可以達(dá)到百萬(wàn)分之一的錯(cuò)誤率,我相信已經(jīng)非常優(yōu)秀。我們想象一下,如果一個(gè)大客戶裝了1000臺(tái)人臉識(shí)別相機(jī),坦率來(lái)講1000臺(tái)量也不是很大,跟今天城市里已經(jīng)存在的攝像頭數(shù)量相比并不多。
這時(shí)候系統(tǒng)每天要回答1000億個(gè)問(wèn)題,如果人工智能回答100萬(wàn)個(gè)問(wèn)題就會(huì)犯一個(gè)錯(cuò)誤,那么客戶每天就會(huì)收到100萬(wàn)個(gè)錯(cuò)誤,也就是100萬(wàn)個(gè)誤報(bào)或者漏報(bào)。我們想象一下當(dāng)一個(gè)客戶每天會(huì)收到100萬(wàn)個(gè)報(bào)警時(shí),他會(huì)怎么辦?那它肯定會(huì)崩潰的,因?yàn)檫@個(gè)系統(tǒng)根本不能用。而1000臺(tái)1萬(wàn)個(gè)庫(kù)的目標(biāo),每個(gè)攝像頭每天看1萬(wàn)個(gè)面孔,這些假設(shè)也根本不是一個(gè)很苛刻的假設(shè)。
5、人臉識(shí)別解決公共安全問(wèn)題仍然微不足道
我們能夠意識(shí)到人臉識(shí)別盡管在過(guò)去幾年有著巨大進(jìn)展,可以在金融領(lǐng)域做身份驗(yàn)證,但它對(duì)解決公共安全問(wèn)題來(lái)說(shuō)是仍然微不足道的。
這個(gè)事實(shí)說(shuō)明人臉識(shí)別技術(shù)不夠好嗎?我覺(jué)得也不盡然。人臉識(shí)別技術(shù)今天已確定超越人類。科學(xué)實(shí)驗(yàn)數(shù)據(jù)稱,正常人最多能夠記住500張臉,有一些銷售等職業(yè)以及特異功能擁有者記住5000張臉也已經(jīng)是極限了。
動(dòng)態(tài)人臉識(shí)別的問(wèn)題假如想象有一天在北京有100萬(wàn)個(gè)動(dòng)態(tài)人臉識(shí)別的攝像機(jī),而北京有3000萬(wàn)人口,在這種背景下,它每天產(chǎn)生的問(wèn)題高達(dá)數(shù)以萬(wàn)萬(wàn)計(jì)。在這種情況下,發(fā)生錯(cuò)誤的機(jī)率即使再低,但乘以這么大的基數(shù)也會(huì)產(chǎn)生海量的誤報(bào)。所以這個(gè)問(wèn)題的規(guī)模非常殘酷。
在這種情況下我們?cè)撛趺醋瞿?