四、人臉識別的真實現(xiàn)狀
接下來我想給大家講講人臉識別的現(xiàn)狀和進展。
這里面有一種分裂,怎樣一種分裂呢?
一些人工智能公司宣傳,他們一般都會把人臉識別的性能吹得非常懸,說錯誤率已經(jīng)達到億分之一的程度等等。雖然這是事實,的確有時候我們發(fā)現(xiàn)有一些識別錯誤率已經(jīng)低于億分之一,但這是有前提的,譬如說靜態(tài)人臉識別:如擺拍等。
還有一種場景是門禁的應(yīng)用,人們?yōu)榱诉^一個通道,然后就盯著攝像頭,這時候成像條件都很好。但是對安防而言,更多時候被觀測的對象沒有意識到自己被觀測,它的角度也不是很理想,離相機也比較遠,光照也比較復(fù)雜。而且整個目標在運動中碰到照片時,它的人臉識別結(jié)果也完全不一樣了。
很多公司認為人臉識別已經(jīng)做得很好,但另一方面,如果大家去調(diào)查一下如果使用了人臉識別,尤其是使用動態(tài)人臉識別的客戶,大多數(shù)客戶都認為誤報率太高,而且高到基本上這個系統(tǒng)就沒有辦法使用。
1、是人臉技術(shù)不好,還是大家在撒謊?
今天趁這個機會,我也想非常坦誠地跟大家分享一下這里面的原因。到底是人臉識別技術(shù)還不夠好,還是大家在撒謊。
做人臉識別它的優(yōu)點是速度快,一張顯卡每秒鐘可產(chǎn)生幾百張臉的特征,完成數(shù)千萬張臉的比對,這個目前已經(jīng)可以做到了。它的成本也低,使得這項技能可以快速復(fù)制、大規(guī)模地部署,性能很穩(wěn)定且可持續(xù)提升。人工智能的缺點是應(yīng)對復(fù)雜問題應(yīng)對能力差,除此之外是對環(huán)境變化的適應(yīng)能力弱。
人類的智能跟人工智能相比,幾乎是完全相反的。
人類智能的優(yōu)點正好是人工智能的缺點,人類對復(fù)雜問題的應(yīng)對能力和對環(huán)境變化的適應(yīng)能力很強,但缺點就是速度慢、成本高,比較難快速復(fù)制、不大可能大規(guī)模地部署、性能也不穩(wěn)定(容易受到精神狀態(tài)的影響)。
2、1比1的人臉驗證
我們來看一下人工智能的不同應(yīng)用,先介紹下1:1的人臉驗證。
在金融支付領(lǐng)域里面,有些公司開發(fā)的軟件幫助客戶去驗證用戶的身份。這類應(yīng)用本質(zhì)上是在回答一個問題??蛻舻臄z像頭拍一張照片,然后將照片傳到后臺,后臺知道驗證的對象是誰,并且有驗證對象的身份證照片。那么它要回答的問題是“這兩個人是同一個人嗎?”,答案是“是”或者“否”。所以總共回答這么一個問題。
3、1比N的人臉識別(靜態(tài)人臉比對)
我們再來看一下1:N的人臉的識別,也叫靜態(tài)人臉對比。
假如客戶選擇一張照片,然后他擁有N個人的對比庫。舉個例子,比如在某個省的公安廳,這個省有5000萬個有身份證的公民。這時候警方看到一個嫌疑人想調(diào)查這個人的身份,這個人是誰?
在做這件事情的過程中,事實上人臉識別就要回答很多問題。這個人是張三嗎?這個人是李四嗎?是王五嗎?然后它要回答N個問題,可能還有一個最困難的問題也就是第N+1個問題:這個人可能誰都不是。這就叫靜態(tài)人臉比對。很顯然,與人臉驗證相比,靜態(tài)人臉比對就是更為復(fù)雜的問題。因為它總共要回答的問題總數(shù)是N+1個,當這個N比較大的時候,問題回答的難度和出錯誤幾率就大大提升。
但靜態(tài)人臉比對使用的頻率比較低,只有當客戶要做一次搜索時它才會使用。它使用的場景允許用戶參與交互和確認。簡單說就像一個搜索引擎,我在搜索結(jié)果里挑一個我認為對的,或者是我把搜索結(jié)果呈現(xiàn)的前幾名看上去都很像,分別調(diào)查后能夠快速幫客戶縮小調(diào)查范圍。
這種產(chǎn)品在過去一、兩年內(nèi)的推廣也比較快,而且可用性相對較高。
4、M比N人臉識別(動態(tài)人臉比對)
我們再往下看來看一下M比N的人臉識別,通常這個叫動態(tài)認識。
何為動態(tài)人臉識別?就是客戶安裝的攝像頭每看到一個人后,就在一個庫里去比對這個人是誰,“M”代表的就是攝像頭,或者網(wǎng)絡(luò)里所有攝像頭抓到的人臉數(shù)目。“N”就是對比庫中的目標數(shù)目,抓到的每一張臉都得“問”一遍:這是張三嗎?是李四嗎,那真的是王五嗎?然后對于這個人你要問N+1個問題。對于看到所有M個人,問題的總數(shù)也就是M×N+1個。而且動態(tài)人臉使用頻率非常高,因為它是一個全自動體系。
以北京地鐵站為例,我聽說北京1000多個地鐵站里面平均每站都有上百個攝像頭,如果這里面100個攝像頭每個地鐵站流通8到10萬人是很常見的,可能在一些比較繁忙的地鐵站有上百萬人。
對于看到的每一個人都要回答N+1個問題,如果這個N是一個很大的庫,比如是一個擁有十幾萬人的全國逃犯數(shù)據(jù)庫,這就是一個天文數(shù)字。而且在這個使用場景中,它不存在用戶交互,客戶期待你最后產(chǎn)生報警,而且這個警報是值得信賴的。
我們先來看一下這個問題:
一臺動態(tài)人臉抓拍機每天產(chǎn)生以下問題:首先假設(shè)每個相機每天看見1萬張臉,在很多公共場所這并不是一個很夸張的假設(shè)。
我們假設(shè)對比庫里有1萬個目標,這可能對公安來說也不是一個大的目標庫。如果基于該假設(shè)的話,這個相機每天要回答的問題就是一億零一萬個。如果人工智能每回答100萬個人臉比對問題就犯一個錯誤,那么每一天在每一臺相機上就會犯100個錯誤,也就是產(chǎn)生100個誤報或者漏報。
我剛才假設(shè)每回答100萬個問題才會犯一個錯誤,其實也是非常夸張的假設(shè),因為在動態(tài)人臉識別里,很多時候人的面孔角度是不理想的,分辨率也不一定很理想,光線可能也不是很好,還可能有運動模糊。
這種情況下,如果哪個公司真的可以達到百萬分之一的錯誤率,我相信已經(jīng)非常優(yōu)秀。我們想象一下,如果一個大客戶裝了1000臺人臉識別相機,坦率來講1000臺量也不是很大,跟今天城市里已經(jīng)存在的攝像頭數(shù)量相比并不多。
這時候系統(tǒng)每天要回答1000億個問題,如果人工智能回答100萬個問題就會犯一個錯誤,那么客戶每天就會收到100萬個錯誤,也就是100萬個誤報或者漏報。我們想象一下當一個客戶每天會收到100萬個報警時,他會怎么辦?那它肯定會崩潰的,因為這個系統(tǒng)根本不能用。而1000臺1萬個庫的目標,每個攝像頭每天看1萬個面孔,這些假設(shè)也根本不是一個很苛刻的假設(shè)。
5、人臉識別解決公共安全問題仍然微不足道
我們能夠意識到人臉識別盡管在過去幾年有著巨大進展,可以在金融領(lǐng)域做身份驗證,但它對解決公共安全問題來說是仍然微不足道的。
這個事實說明人臉識別技術(shù)不夠好嗎?我覺得也不盡然。人臉識別技術(shù)今天已確定超越人類。科學(xué)實驗數(shù)據(jù)稱,正常人最多能夠記住500張臉,有一些銷售等職業(yè)以及特異功能擁有者記住5000張臉也已經(jīng)是極限了。
動態(tài)人臉識別的問題假如想象有一天在北京有100萬個動態(tài)人臉識別的攝像機,而北京有3000萬人口,在這種背景下,它每天產(chǎn)生的問題高達數(shù)以萬萬計。在這種情況下,發(fā)生錯誤的機率即使再低,但乘以這么大的基數(shù)也會產(chǎn)生海量的誤報。所以這個問題的規(guī)模非常殘酷。
在這種情況下我們該怎么做呢?