近年來(lái),隨著信號(hào)處理技術(shù)的進(jìn)步,視頻和圖像處理技術(shù)得到迅速發(fā)展,并逐步滲透到我們的社會(huì)生活中。大量的視頻監(jiān)控應(yīng)用已經(jīng)出現(xiàn),我們可能都已經(jīng)看到,視頻監(jiān)控幾乎無(wú)所不在:銀行柜臺(tái)和ATM機(jī),小區(qū)、酒店、寫字樓、機(jī)場(chǎng)等公共場(chǎng)所的安全管理,高速公路和停車場(chǎng)的車輛收費(fèi)管理,以及道路交通的流量管理等等。
與此同時(shí),大規(guī)模視頻監(jiān)控帶來(lái)的海量視頻信息成為了系統(tǒng)安裝后的處理難題。系統(tǒng)利用率低、有效信息提取困難,而視頻圖像識(shí)別分析技術(shù)則可以解決這個(gè)問(wèn)題,智能視頻分析軟件就是基于此點(diǎn)迅速發(fā)展起來(lái)。
技術(shù)發(fā)展?fàn)顩r
視頻圖像識(shí)別分析技術(shù)源自計(jì)算機(jī)視覺(jué)(CV,Computer Vision)技術(shù)。計(jì)算機(jī)視覺(jué)技術(shù)是人工智能(AI,Artificial Intelligent)研究的分支之一,它能夠在圖像及圖像描述之間建立映射關(guān)系,從而使計(jì)算機(jī)能夠通過(guò)數(shù)字圖像處理和分析來(lái)理解視頻畫(huà)面中的內(nèi)容。而視頻監(jiān)控中所提到的智能視頻技術(shù)主要指的是:“自動(dòng)分析和抽取視頻源中的關(guān)鍵信息?!比绻褦z像機(jī)看作人的眼睛,而智能視頻系統(tǒng)或設(shè)備則可以看作人的大腦。人臉辨識(shí)、車牌識(shí)別以及行為分析三項(xiàng)技術(shù)則是智能視頻軟件的核心技術(shù)。
人臉辨識(shí)技術(shù)
人臉辨識(shí)是一個(gè)相當(dāng)古老的題目,早在1981年便有人發(fā)明模擬人臉,做人臉辨識(shí)的計(jì)算機(jī)視覺(jué)系統(tǒng),在1991年以及1997年分別有兩個(gè)重要的人臉辨識(shí)方法發(fā)表,其分別是Eigenface以及Fisherface。
Eigenface法是假設(shè)所有人臉可以用一組基底人臉的線性組合所表示,作者以PCA組成分析原理(Principle Components Analysis)找出這組基底。
Fisherface法則是進(jìn)一步利用LDA線性判別式分析法(Linear Discriminant Analysis ),強(qiáng)制將不同的人臉在投射空間中盡量分開(kāi),因而提高了辨識(shí)率。
基本上人臉辨識(shí)可以分為兩種主要方法,一是整體特征方法,一是局部特征方法。
整體特征方法:直接將整張人臉當(dāng)作單一特征來(lái)做辨識(shí);局部特征方法:先找出臉上的局部特征,通常是眼睛、鼻子和嘴巴,然后分別根據(jù)這些局部特征做辨識(shí),最后將個(gè)別局部特征的結(jié)果統(tǒng)合而得到最后結(jié)果。近來(lái)的研究發(fā)現(xiàn)局部特征方法要比整體特征方法有更高的準(zhǔn)確率,但局部特征方法存在局部特征的對(duì)位問(wèn)題,在實(shí)際應(yīng)用上有較高的困難度。
大部分的人臉辨識(shí)方法會(huì)先將原始影像數(shù)據(jù)經(jīng)過(guò)降維的程序,在投射的子空間進(jìn)行辨識(shí),如此一來(lái)降低了運(yùn)算量,例如前述的利用PCA或LDA方法。
近來(lái)也有方法是利用不連續(xù)余弦轉(zhuǎn)換法DCT(Discrete Cosine Transform)來(lái)做降維,其與PCA 和LDA不同處在于DCT法抽取的是影像的低頻部分作為特征,并且不用象PCA或LDA需要很多樣本(sample)來(lái)計(jì)算轉(zhuǎn)置矩陣,而是利用單一公式直接對(duì)每個(gè)樣本降維。
在抽取出特征后(不管是原始影像或是降維空間),做辨識(shí)通常是利用最近鄰居法( Nearest-Neighbor),Eigenface以及Fisherface皆屬于這種方式。比較快速的方式是利用中樞網(wǎng)絡(luò)法(Neural Network),再配合DCT的處理結(jié)果作為特征后,在Yale以及ORL人臉數(shù)據(jù)庫(kù)有不錯(cuò)的辨識(shí)率。[nextpage]
近來(lái)非常熱門的Support Vector Machine(SVM)方法也被應(yīng)用到人臉辨識(shí)的題目上,其直接取原始影像作為特征,或是經(jīng)過(guò)PCA降維后當(dāng)作特征,再訓(xùn)練出SVM來(lái)做辨識(shí)。
一個(gè)很有創(chuàng)意的人臉辨識(shí)方法是利用DCT加上Hidden Markov Model(HMM)來(lái)做人臉辨識(shí),其是利用了人臉由上而下,眼睛、鼻子和嘴巴這些特征是有一定順序的性質(zhì)。
人臉辨識(shí)目前公認(rèn)存在的難題有兩個(gè),一是不同光源的問(wèn)題,一是不同角度的問(wèn)題。由于同一張人臉在不同光線以及角度下常常會(huì)有很大的差別,所以傳統(tǒng)的方法通常會(huì)失敗。
近來(lái)有不少方法致力于處理上述兩問(wèn)題,在處理光線問(wèn)題方面有Illumination Cone、 Quotient Image以及Self Quotient Image和Intrinsic Illumination Subspace四種方法。
Illumination Cone提出建立3D臉部模型,理論上可以重建固定視角下所有光源的臉2D樣貌,因而處理了光線變化的問(wèn)題。
Quotient Image、Self Quotient Image和Intrinsic Illumination Subspace概念上都是一種前處理的手段,三者皆先將欲辨識(shí)的人臉轉(zhuǎn)成刪除光源信息的格式,再做人臉辨識(shí)。
在處理不同角度方面有Morphable model、View-Base Eigenspaces、Elastic Bunch Graph Matching和Active appearance model四種方法。
Morphable model 與Active appearance model提供將視角為非正面輸入影像轉(zhuǎn)換成正面影像,因而去除了不同視角的因素,在此條件下做人臉辨識(shí)自然有較高的精確度。
View-Base Eigenspaces是基于Eigenface的方法,但根據(jù)不同的視角都個(gè)別去做,因而數(shù)據(jù)庫(kù)中儲(chǔ)存了同一人在不同視角下的數(shù)據(jù)。
Elastic Bunch Graph Matching方法則是根據(jù)人臉上的特征點(diǎn)建立一個(gè)圖(graph),藉由允許此圖變形而使得不同視角下臉部的特征點(diǎn)仍位于臉上相同位置,因此藉由這些特征點(diǎn)來(lái)做人臉辨識(shí)便排除了不同視角的因素。
上述的這些方法皆是利用2D的模型來(lái)進(jìn)行人臉辨識(shí)。另外一類的方法使用3D模型來(lái)進(jìn)行人臉辨識(shí),如在FRVT 2002中三維Morphable模型的測(cè)試被證明可以有效地改善不同視角的辨識(shí)率。
傳統(tǒng)的人臉辨識(shí)使用單張影像,相對(duì)于此種靜態(tài)影像辨識(shí)方法外,利用影片中連續(xù)的多張影像來(lái)做辨識(shí)的方法則稱為動(dòng)態(tài)影像辨識(shí)。動(dòng)態(tài)影像相對(duì)于靜態(tài)影像有許多優(yōu)勢(shì),一是多張影像提供的信息比單張影像豐富,其中包括了不同的視角,相鄰影像的信息等,這些信息都能夠增加人臉辨識(shí)的準(zhǔn)確度。
總結(jié)來(lái)說(shuō),光線和視角仍是目前人臉辨識(shí)的難題,雖然有相當(dāng)多的研究是針對(duì)這兩點(diǎn)的,但并沒(méi)有完全解決。近來(lái)的研究趨向利用動(dòng)態(tài)影像來(lái)得到更高的精確度,而利用3D的人臉模型來(lái)進(jìn)行辨識(shí)也因?yàn)樵谝暯歉淖兊臓顩r下有不錯(cuò)的表現(xiàn),在近幾年也受到重視。[nextpage]
車牌識(shí)別技術(shù)
車牌識(shí)別是基于光學(xué)字符識(shí)別(簡(jiǎn)稱OCR,即Optical Character Recognition)技術(shù)對(duì)車輛牌照進(jìn)行識(shí)別,從而辨識(shí)車輛身份的一種技術(shù)。近幾年該技術(shù)發(fā)展迅速,國(guó)內(nèi)有許多研究機(jī)構(gòu)和廠家掌握了漢字和基本字符的關(guān)鍵識(shí)別技術(shù),并已廣泛應(yīng)用于智能交通領(lǐng)域。
車輛圖像采集是從實(shí)際環(huán)境中或者交通視頻中獲取,即可通過(guò)照相設(shè)備直接獲取,也可以使用圖像采集卡采集。車牌識(shí)別技術(shù)均基于對(duì)圖像進(jìn)行分析識(shí)別,這一步驟提供了識(shí)別對(duì)象的原始信息。
車牌定位是在車輛的整幅圖像中,正確找到車牌所在的位置,提取車牌部分的圖像,并判別出車牌的顏色。
字符分割是按規(guī)定的車牌格式,正確分割車牌的每一個(gè)字符,為字符的識(shí)別做準(zhǔn)備。
字符識(shí)別是OCR的核心技術(shù),經(jīng)過(guò)字符識(shí)別最終獲得車牌號(hào)碼(有時(shí)還包括如車牌顏色,牌照位置等其他重要信息)。
經(jīng)過(guò)多年的發(fā)展,車牌識(shí)別技術(shù)已經(jīng)相對(duì)成熟,已有較多的廠商的整牌識(shí)別率都可以達(dá)到95%以上,基本滿足了實(shí)際應(yīng)用需要。在最新的車牌識(shí)別系統(tǒng)中,已有廠家推出了車型識(shí)別功能,可以定位到是何種品牌的汽車,如奔馳、寶馬、本田、豐田、夏利等。
困擾車牌識(shí)別技術(shù)多年的光線問(wèn)題,也隨著光源補(bǔ)償技術(shù)的發(fā)展得到了極大改善??梢灶A(yù)計(jì)車牌識(shí)別技術(shù)已經(jīng)具備廣泛推廣的基礎(chǔ)。
行為識(shí)別分析技術(shù)
行為識(shí)別分析技術(shù)是近幾年發(fā)展比較迅速的智能識(shí)別技術(shù),并迅速進(jìn)入產(chǎn)品化,其中以美國(guó)Object Video公司為代表。
目前,針對(duì)生活中的各類安全預(yù)警事件的最新行為檢測(cè)功能紛紛推出,如煙火探測(cè)、異常行為探測(cè)、動(dòng)物探測(cè)等等。這些功能的實(shí)現(xiàn),加速了圖像識(shí)別分析軟件的大規(guī)模使用。
困擾行為識(shí)別分析技術(shù)的環(huán)境變化因素由于“自學(xué)習(xí)”技術(shù)的發(fā)展,也得到了很大改善。
應(yīng)用類型
在應(yīng)用方面,主要分為與安全相關(guān)類應(yīng)用與非安全相關(guān)類應(yīng)用兩類。
與安全相關(guān)類應(yīng)用
安全相關(guān)類的應(yīng)用是目前市場(chǎng)上存在的主要智能視頻應(yīng)用,特別是在“911”恐怖襲擊、馬德里爆炸案以及倫敦爆炸案發(fā)生之后,市場(chǎng)上對(duì)于此類應(yīng)用的需求不斷增長(zhǎng)。這些應(yīng)用主要作用是協(xié)助政府或其他機(jī)構(gòu)的安全部門提高室外大地域公共環(huán)境的安全防護(hù)。此類應(yīng)用主要包括:
1、高級(jí)視頻移動(dòng)偵測(cè)(Advanced VMD):在復(fù)雜的天氣環(huán)境中(例如雨雪、大霧、大風(fēng)等)精確地偵測(cè)和識(shí)別單個(gè)物體或多個(gè)物體的運(yùn)動(dòng)情況,包括運(yùn)動(dòng)方向、運(yùn)動(dòng)特征等。[nextpage]
2、物體追蹤(Motion Tracking):偵測(cè)到移動(dòng)物體之后,根據(jù)物體的運(yùn)動(dòng)情況,自動(dòng)發(fā)送PTZ控制指令,使攝像機(jī)能夠自動(dòng)跟蹤物體,在物體超出該攝像機(jī)監(jiān)控范圍之后,自動(dòng)通知物體所在區(qū)域的攝像機(jī)繼續(xù)進(jìn)行追蹤。
3、人面部識(shí)別(Facial Detection):自動(dòng)識(shí)別人的臉部特征,并通過(guò)與數(shù)據(jù)庫(kù)檔案進(jìn)行比較來(lái)識(shí)別或驗(yàn)證人物的身份。此類應(yīng)用又可以細(xì)分為“合作型”和“非合作型”兩大類。
4、車輛識(shí)別(Vehicle Identification):識(shí)別車輛的形狀、顏色、車牌號(hào)碼等特征,并反饋給監(jiān)控者。此類應(yīng)用可以用在被盜車輛追蹤等場(chǎng)景中。
5、非法滯留(Object Persistence):當(dāng)一個(gè)物體(如箱子、包裹、車輛、人物等)在敏感區(qū)域停留的時(shí)間過(guò)長(zhǎng),或超過(guò)了預(yù)定義的時(shí)間長(zhǎng)度就產(chǎn)生報(bào)警。典型應(yīng)用場(chǎng)景包括機(jī)場(chǎng)、火車站、地鐵站等。
與安全非相關(guān)類應(yīng)用
除了安全相關(guān)類應(yīng)用之外,智能視頻還可以應(yīng)用到一些非安全相關(guān)類的應(yīng)用當(dāng)中。這些應(yīng)用主要面向零售、服務(wù)等行業(yè),可以被看作管理和服務(wù)的輔助工具,用以提高服務(wù)水平和營(yíng)業(yè)額。此類應(yīng)用主要包括:
1、人數(shù)統(tǒng)計(jì)(People Counting):統(tǒng)計(jì)穿越入口或指定區(qū)域的人或物體的數(shù)量。例如為業(yè)主計(jì)算某天光顧其店鋪的顧客數(shù)量。
2、人群控制(Flow Control):識(shí)別人群的整體運(yùn)動(dòng)特征,包括速度、方向等等,用以避免形成擁塞,或者及時(shí)發(fā)現(xiàn)異常情況。典型的應(yīng)用場(chǎng)景包括超級(jí)市場(chǎng)、火車站等人員聚集的地方。
3、注意力控制(Attention Control):統(tǒng)計(jì)人們?cè)谀澄矬w前面停留的時(shí)間??梢杂脕?lái)評(píng)估新產(chǎn)品或新促銷策略的吸引力,也可以用來(lái)計(jì)算為顧客提供服務(wù)所用的時(shí)間。
4、交通流量控制(Traffic Flow):用于在高速公路或環(huán)線公路上監(jiān)視交通情況,例如統(tǒng)計(jì)通過(guò)的車輛數(shù)、平均車速、是否有非法??俊⑹欠裼泄收宪囕v等等。
結(jié)語(yǔ)
目前,視頻監(jiān)控技術(shù)正在向著數(shù)字化、網(wǎng)絡(luò)化、智能化的方向發(fā)展。網(wǎng)絡(luò)化、智能化的基礎(chǔ)是數(shù)字化,而智能化則是“三化”的最高境界。系統(tǒng)由目視解釋轉(zhuǎn)變?yōu)樽詣?dòng)解釋是視頻監(jiān)控技術(shù)的飛躍,是安防技術(shù)發(fā)展的必然。