格靈深瞳趙勇：AI將如何影響和變革安防行業(yè)？

作者：趙勇 2017-03-13 16:25 閱讀 3553 來(lái)源：格靈深瞳評(píng)論區(qū)

人臉識(shí)別的真實(shí)現(xiàn)狀

　　四、人臉識(shí)別的真實(shí)現(xiàn)狀

　　接下來(lái)我想給大家講講人臉識(shí)別的現(xiàn)狀和進(jìn)展。

　　這里面有一種分裂，怎樣一種分裂呢?

　　一些人工智能公司宣傳，他們一般都會(huì)把人臉識(shí)別的性能吹得非常懸，說(shuō)錯(cuò)誤率已經(jīng)達(dá)到億分之一的程度等等。雖然這是事實(shí)，的確有時(shí)候我們發(fā)現(xiàn)有一些識(shí)別錯(cuò)誤率已經(jīng)低于億分之一，但這是有前提的，譬如說(shuō)靜態(tài)人臉識(shí)別：如擺拍等。

　　還有一種場(chǎng)景是門(mén)禁的應(yīng)用，人們?yōu)榱诉^(guò)一個(gè)通道，然后就盯著攝像頭，這時(shí)候成像條件都很好。但是對(duì)安防而言，更多時(shí)候被觀測(cè)的對(duì)象沒(méi)有意識(shí)到自己被觀測(cè)，它的角度也不是很理想，離相機(jī)也比較遠(yuǎn)，光照也比較復(fù)雜。而且整個(gè)目標(biāo)在運(yùn)動(dòng)中碰到照片時(shí)，它的人臉識(shí)別結(jié)果也完全不一樣了。

　　很多公司認(rèn)為人臉識(shí)別已經(jīng)做得很好，但另一方面，如果大家去調(diào)查一下如果使用了人臉識(shí)別，尤其是使用動(dòng)態(tài)人臉識(shí)別的客戶，大多數(shù)客戶都認(rèn)為誤報(bào)率太高，而且高到基本上這個(gè)系統(tǒng)就沒(méi)有辦法使用。

　　1、是人臉技術(shù)不好，還是大家在撒謊?

　　今天趁這個(gè)機(jī)會(huì)，我也想非常坦誠(chéng)地跟大家分享一下這里面的原因。到底是人臉識(shí)別技術(shù)還不夠好，還是大家在撒謊。

　　做人臉識(shí)別它的優(yōu)點(diǎn)是速度快，一張顯卡每秒鐘可產(chǎn)生幾百?gòu)埬樀奶卣?，完成?shù)千萬(wàn)張臉的比對(duì)，這個(gè)目前已經(jīng)可以做到了。它的成本也低，使得這項(xiàng)技能可以快速?gòu)?fù)制、大規(guī)模地部署，性能很穩(wěn)定且可持續(xù)提升。人工智能的缺點(diǎn)是應(yīng)對(duì)復(fù)雜問(wèn)題應(yīng)對(duì)能力差，除此之外是對(duì)環(huán)境變化的適應(yīng)能力弱。

　　人類的智能跟人工智能相比，幾乎是完全相反的。

　　人類智能的優(yōu)點(diǎn)正好是人工智能的缺點(diǎn)，人類對(duì)復(fù)雜問(wèn)題的應(yīng)對(duì)能力和對(duì)環(huán)境變化的適應(yīng)能力很強(qiáng)，但缺點(diǎn)就是速度慢、成本高，比較難快速?gòu)?fù)制、不大可能大規(guī)模地部署、性能也不穩(wěn)定(容易受到精神狀態(tài)的影響)。

　　2、1比1的人臉驗(yàn)證

　　我們來(lái)看一下人工智能的不同應(yīng)用，先介紹下1:1的人臉驗(yàn)證。

　　在金融支付領(lǐng)域里面，有些公司開(kāi)發(fā)的軟件幫助客戶去驗(yàn)證用戶的身份。這類應(yīng)用本質(zhì)上是在回答一個(gè)問(wèn)題?？蛻舻臄z像頭拍一張照片，然后將照片傳到后臺(tái)，后臺(tái)知道驗(yàn)證的對(duì)象是誰(shuí)，并且有驗(yàn)證對(duì)象的身份證照片。那么它要回答的問(wèn)題是“這兩個(gè)人是同一個(gè)人嗎?”，答案是“是”或者“否”。所以總共回答這么一個(gè)問(wèn)題。

　　3、1比N的人臉識(shí)別(靜態(tài)人臉比對(duì))

　　我們?cè)賮?lái)看一下1：N的人臉的識(shí)別，也叫靜態(tài)人臉對(duì)比。

　　假如客戶選擇一張照片，然后他擁有N個(gè)人的對(duì)比庫(kù)。舉個(gè)例子，比如在某個(gè)省的公安廳，這個(gè)省有5000萬(wàn)個(gè)有身份證的公民。這時(shí)候警方看到一個(gè)嫌疑人想調(diào)查這個(gè)人的身份，這個(gè)人是誰(shuí)?

　　在做這件事情的過(guò)程中，事實(shí)上人臉識(shí)別就要回答很多問(wèn)題。這個(gè)人是張三嗎?這個(gè)人是李四嗎?是王五嗎?然后它要回答N個(gè)問(wèn)題，可能還有一個(gè)最困難的問(wèn)題也就是第N+1個(gè)問(wèn)題：這個(gè)人可能誰(shuí)都不是。這就叫靜態(tài)人臉比對(duì)。很顯然，與人臉驗(yàn)證相比，靜態(tài)人臉比對(duì)就是更為復(fù)雜的問(wèn)題。因?yàn)樗偣惨卮鸬膯?wèn)題總數(shù)是N+1個(gè)，當(dāng)這個(gè)N比較大的時(shí)候，問(wèn)題回答的難度和出錯(cuò)誤幾率就大大提升。

　　但靜態(tài)人臉比對(duì)使用的頻率比較低，只有當(dāng)客戶要做一次搜索時(shí)它才會(huì)使用。它使用的場(chǎng)景允許用戶參與交互和確認(rèn)。簡(jiǎn)單說(shuō)就像一個(gè)搜索引擎，我在搜索結(jié)果里挑一個(gè)我認(rèn)為對(duì)的，或者是我把搜索結(jié)果呈現(xiàn)的前幾名看上去都很像，分別調(diào)查后能夠快速幫客戶縮小調(diào)查范圍。

　　這種產(chǎn)品在過(guò)去一、兩年內(nèi)的推廣也比較快，而且可用性相對(duì)較高。

　　4、M比N人臉識(shí)別(動(dòng)態(tài)人臉比對(duì))

　　我們?cè)偻驴磥?lái)看一下M比N的人臉識(shí)別，通常這個(gè)叫動(dòng)態(tài)認(rèn)識(shí)。

　　何為動(dòng)態(tài)人臉識(shí)別?就是客戶安裝的攝像頭每看到一個(gè)人后，就在一個(gè)庫(kù)里去比對(duì)這個(gè)人是誰(shuí)，“M”代表的就是攝像頭，或者網(wǎng)絡(luò)里所有攝像頭抓到的人臉數(shù)目。“N”就是對(duì)比庫(kù)中的目標(biāo)數(shù)目，抓到的每一張臉都得“問(wèn)”一遍：這是張三嗎?是李四嗎，那真的是王五嗎?然后對(duì)于這個(gè)人你要問(wèn)N+1個(gè)問(wèn)題。對(duì)于看到所有M個(gè)人，問(wèn)題的總數(shù)也就是M×N+1個(gè)。而且動(dòng)態(tài)人臉使用頻率非常高，因?yàn)樗且粋€(gè)全自動(dòng)體系。

　　以北京地鐵站為例，我聽(tīng)說(shuō)北京1000多個(gè)地鐵站里面平均每站都有上百個(gè)攝像頭，如果這里面100個(gè)攝像頭每個(gè)地鐵站流通8到10萬(wàn)人是很常見(jiàn)的，可能在一些比較繁忙的地鐵站有上百萬(wàn)人。

　　對(duì)于看到的每一個(gè)人都要回答N+1個(gè)問(wèn)題，如果這個(gè)N是一個(gè)很大的庫(kù)，比如是一個(gè)擁有十幾萬(wàn)人的全國(guó)逃犯數(shù)據(jù)庫(kù)，這就是一個(gè)天文數(shù)字。而且在這個(gè)使用場(chǎng)景中，它不存在用戶交互，客戶期待你最后產(chǎn)生報(bào)警，而且這個(gè)警報(bào)是值得信賴的。

　　我們先來(lái)看一下這個(gè)問(wèn)題：

　　一臺(tái)動(dòng)態(tài)人臉抓拍機(jī)每天產(chǎn)生以下問(wèn)題：首先假設(shè)每個(gè)相機(jī)每天看見(jiàn)1萬(wàn)張臉，在很多公共場(chǎng)所這并不是一個(gè)很夸張的假設(shè)。

　　我們假設(shè)對(duì)比庫(kù)里有1萬(wàn)個(gè)目標(biāo)，這可能對(duì)公安來(lái)說(shuō)也不是一個(gè)大的目標(biāo)庫(kù)。如果基于該假設(shè)的話，這個(gè)相機(jī)每天要回答的問(wèn)題就是一億零一萬(wàn)個(gè)。如果人工智能每回答100萬(wàn)個(gè)人臉比對(duì)問(wèn)題就犯一個(gè)錯(cuò)誤，那么每一天在每一臺(tái)相機(jī)上就會(huì)犯100個(gè)錯(cuò)誤，也就是產(chǎn)生100個(gè)誤報(bào)或者漏報(bào)。

　　我剛才假設(shè)每回答100萬(wàn)個(gè)問(wèn)題才會(huì)犯一個(gè)錯(cuò)誤，其實(shí)也是非?？鋸埖募僭O(shè)，因?yàn)樵趧?dòng)態(tài)人臉識(shí)別里，很多時(shí)候人的面孔角度是不理想的，分辨率也不一定很理想，光線可能也不是很好，還可能有運(yùn)動(dòng)模糊。

　　這種情況下，如果哪個(gè)公司真的可以達(dá)到百萬(wàn)分之一的錯(cuò)誤率，我相信已經(jīng)非常優(yōu)秀。我們想象一下，如果一個(gè)大客戶裝了1000臺(tái)人臉識(shí)別相機(jī)，坦率來(lái)講1000臺(tái)量也不是很大，跟今天城市里已經(jīng)存在的攝像頭數(shù)量相比并不多。

　　這時(shí)候系統(tǒng)每天要回答1000億個(gè)問(wèn)題，如果人工智能回答100萬(wàn)個(gè)問(wèn)題就會(huì)犯一個(gè)錯(cuò)誤，那么客戶每天就會(huì)收到100萬(wàn)個(gè)錯(cuò)誤，也就是100萬(wàn)個(gè)誤報(bào)或者漏報(bào)。我們想象一下當(dāng)一個(gè)客戶每天會(huì)收到100萬(wàn)個(gè)報(bào)警時(shí)，他會(huì)怎么辦?那它肯定會(huì)崩潰的，因?yàn)檫@個(gè)系統(tǒng)根本不能用。而1000臺(tái)1萬(wàn)個(gè)庫(kù)的目標(biāo)，每個(gè)攝像頭每天看1萬(wàn)個(gè)面孔，這些假設(shè)也根本不是一個(gè)很苛刻的假設(shè)。

　　5、人臉識(shí)別解決公共安全問(wèn)題仍然微不足道

　　我們能夠意識(shí)到人臉識(shí)別盡管在過(guò)去幾年有著巨大進(jìn)展，可以在金融領(lǐng)域做身份驗(yàn)證，但它對(duì)解決公共安全問(wèn)題來(lái)說(shuō)是仍然微不足道的。

　　這個(gè)事實(shí)說(shuō)明人臉識(shí)別技術(shù)不夠好嗎?我覺(jué)得也不盡然。人臉識(shí)別技術(shù)今天已確定超越人類。科學(xué)實(shí)驗(yàn)數(shù)據(jù)稱，正常人最多能夠記住500張臉，有一些銷售等職業(yè)以及特異功能擁有者記住5000張臉也已經(jīng)是極限了。

　　動(dòng)態(tài)人臉識(shí)別的問(wèn)題假如想象有一天在北京有100萬(wàn)個(gè)動(dòng)態(tài)人臉識(shí)別的攝像機(jī)，而北京有3000萬(wàn)人口，在這種背景下，它每天產(chǎn)生的問(wèn)題高達(dá)數(shù)以萬(wàn)萬(wàn)計(jì)。在這種情況下，發(fā)生錯(cuò)誤的機(jī)率即使再低，但乘以這么大的基數(shù)也會(huì)產(chǎn)生海量的誤報(bào)。所以這個(gè)問(wèn)題的規(guī)模非常殘酷。

　　在這種情況下我們?cè)撛趺醋瞿?

1 2 3 4 5 6 下一頁(yè)

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請(qǐng)聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請(qǐng)諒解！