什么是計算機(jī)視覺?
計算機(jī)視覺被認(rèn)為是機(jī)器學(xué)習(xí)和人工智能發(fā)展的重要領(lǐng)域之一。簡而言之,計算機(jī)視覺是人工智能研究領(lǐng)域,致力于賦予計算機(jī)看世界和視覺解釋世界的能力。
更進(jìn)一步的說,計算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),就是是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
計算機(jī)視覺的應(yīng)用非常廣泛,從自動駕駛汽車和無人機(jī)到醫(yī)療診斷技術(shù)和面部識別軟件,計算機(jī)視覺的應(yīng)用是巨大的和革命性的。
圖像標(biāo)注
圖像標(biāo)注是計算機(jī)視覺的一個子集,是計算機(jī)視覺的重要任務(wù)之一。圖像標(biāo)注就是將標(biāo)簽附加到圖像上的過程。這可以是整個圖像的一個標(biāo)簽,也可以是圖像中每一組像素的多個標(biāo)簽。這些標(biāo)簽是由人工智能工程師預(yù)先確定的,并被選中為計算機(jī)視覺模型提供圖像中所顯示的信息。
一個簡單的例子就是為人類標(biāo)注者提供動物的圖像,并讓他們用正確的動物名稱為每個圖像進(jìn)行標(biāo)記。當(dāng)然,標(biāo)記的方法依賴于項目所使用的圖像標(biāo)注類型。這些帶標(biāo)簽的圖像有時被稱為真實數(shù)據(jù),然后將被輸入計算機(jī)視覺算法。通過訓(xùn)練,最后該模型將能夠從未注釋的圖像中區(qū)分不同種類的動物。雖然上面的例子非常簡單,但進(jìn)一步深入到計算機(jī)視覺更復(fù)雜的領(lǐng)域(如自動駕駛汽車),則就會需要更復(fù)雜的圖像標(biāo)注。
由于計算機(jī)視覺研究的是模仿或超越人類視覺能力的機(jī)器開發(fā),訓(xùn)練這樣的模型需要大量的帶標(biāo)注的圖像。
你用來訓(xùn)練、驗證和測試你的計算機(jī)視覺算法的圖像將對你的人工智能項目的成功產(chǎn)生重大影響。數(shù)據(jù)集中的每張圖像都必須經(jīng)過深思熟慮和準(zhǔn)確的標(biāo)記,以訓(xùn)練人工智能系統(tǒng)像人類一樣識別物體。圖像標(biāo)注的質(zhì)量越高,機(jī)器學(xué)習(xí)模型的性能就可能越好。
如果沒有圖像標(biāo)注,那些令人驚嘆的計算機(jī)視覺技術(shù)都不可能實現(xiàn)。根據(jù)項目的不同,每個圖像上的標(biāo)簽數(shù)量可能會有所不同。一些項目將只需要一個標(biāo)簽來表示整個圖像的內(nèi)容(圖像分類)。其他項目可能需要在單個圖像中標(biāo)記多個對象,每個對象帶有不同的標(biāo)簽。這些標(biāo)簽通常由計算機(jī)視覺科學(xué)家或機(jī)器學(xué)習(xí)工程師預(yù)先確定。
如何進(jìn)行圖像標(biāo)注?
要創(chuàng)建帶標(biāo)簽的圖像,需要三件事:
1)、圖片
2)、有人給圖片加注釋
3)、一個給圖片做標(biāo)注的平臺
大多數(shù)圖像標(biāo)注項目都是從尋找和培訓(xùn)注釋人員來執(zhí)行標(biāo)注任務(wù)開始的。人工智能是一個非常專業(yè)的領(lǐng)域,但人工智能訓(xùn)練數(shù)據(jù)標(biāo)注并不總是必需的。雖然你需要機(jī)器學(xué)習(xí)方面的高等教育才能創(chuàng)造一輛自動駕駛汽車,但你不需要碩士學(xué)位就可以在圖像中畫汽車周圍的方框(邊界框注釋)。因此,大多數(shù)標(biāo)注者不需要機(jī)器學(xué)習(xí)方面的學(xué)位。
但是,這些標(biāo)注人員應(yīng)該對每個標(biāo)注項目的規(guī)范和指導(dǎo)方針進(jìn)行全面的培訓(xùn),因為每個公司都有不同的需求。一旦標(biāo)注人員接受了如何標(biāo)注數(shù)據(jù)的培訓(xùn),他們就可以在專門用于標(biāo)注圖像的平臺上標(biāo)注成百上千的圖像。這個平臺是一個軟件,它應(yīng)該具有執(zhí)行特定類型標(biāo)注所需的所有工具。
常用圖像標(biāo)注類型
1)、 2D和3D包圍框
使用2D邊框,標(biāo)注者必須在他們想要在圖像中注釋的對象周圍繪制一個框。有時這些目標(biāo)對象將是相同的,即“請在圖中的每輛自行車周圍畫框?!?/p>
其他時候,可能會有多個目標(biāo)對象,“請在圖中每輛車、行人和自行車周圍畫框。”在這種情況下,在畫出框后,標(biāo)注者將不得不從標(biāo)簽列表中選擇屬性給框中的對象。
3D包圍盒也被稱為長方體,除了它們還可以顯示被標(biāo)注的目標(biāo)對象的大致深度之外,它們幾乎與2D包圍盒一樣。與2D邊界框標(biāo)注類似,標(biāo)注器在目標(biāo)對象周圍繪制框,確保在對象的邊緣放置錨點。有時目標(biāo)對象的一部分可能被阻擋。在這種情況下,標(biāo)注器會估計目標(biāo)對象阻塞邊緣的位置。
2)、圖像分類
邊界框處理在一個圖像中標(biāo)注多個對象,而圖像分類是將整個圖像與一個標(biāo)簽關(guān)聯(lián)的過程。一個簡單的圖像分類的例子是標(biāo)記動物的類型。注釋者會得到動物的圖片,并要求他們根據(jù)動物種類對每張圖片進(jìn)行分類。
把這些帶注釋的圖像數(shù)據(jù)輸入計算機(jī)視覺模型,可以讓模型了解每種動物特有的視覺特征。理論上,該模型將能夠?qū)⑿碌奈醋⑨尩膭游飯D像歸類到適當(dāng)?shù)奈锓N類別中。
3)、線條和樣條
線條和樣條注釋,顧名思義,就是對圖像上直線或曲線的標(biāo)注。注釋人員的任務(wù)是注釋車道、人行道、電力線和其他邊界指示器。用線條和樣條標(biāo)注的圖像主要用于車道和邊界識別。此外,它們也經(jīng)常被用于無人機(jī)的軌跡規(guī)劃。
從自動駕駛汽車、無人機(jī)到倉庫中的機(jī)器人等等,線條和樣條標(biāo)注在各種用例中都很有用。
4)、多邊形
有時,不規(guī)則形狀的目標(biāo)對象不容易用邊界框或長方體來標(biāo)注。多邊形注釋允許注釋器在目標(biāo)對象的每個頂點上繪制點。這個注釋方法允許對對象的所有精確邊進(jìn)行注釋,而不管它的形狀如何。
與邊界框一樣,帶注釋的邊緣內(nèi)的像素也將被標(biāo)記為描述目標(biāo)對象的標(biāo)簽。
5)、 語義分割
邊界盒、長方體和多邊形都處理在圖像中標(biāo)注單個對象的任務(wù)。而語義分割則是對圖像中每一個像素的進(jìn)行標(biāo)注。不需要給標(biāo)注者一個要標(biāo)注的對象列表,而是給他們一個分段標(biāo)簽列表,以便將圖像分成幾個部分。比如,自動駕駛汽車的交通圖像語義分割就是一個很好的例子,一個典型的語義分割任務(wù)可能會要求標(biāo)注者通過區(qū)別“汽車”、“自行車”、“行人”、“障礙物”、“人行道”、“機(jī)動車道”和“建筑物”來分割圖像。
圖像標(biāo)注的實際應(yīng)用領(lǐng)域
1)、人臉識別
圖像標(biāo)注的一個常見應(yīng)用是面部識別。它包括從人臉圖像中提取相關(guān)特征,以區(qū)分圖像中的人和物體。
利用關(guān)鍵點和地標(biāo)等圖像標(biāo)注技術(shù),通過軌跡指向?qū)θ四槻煌课坏牟煌c進(jìn)行跟蹤,增強(qiáng)了人臉識別算法的有效性。
2)、農(nóng)業(yè)技術(shù)
圖像標(biāo)注技術(shù)已被應(yīng)用于農(nóng)業(yè)技術(shù)行業(yè)的各種任務(wù)中。通過識別病害和健康作物的圖像來檢測植物病害,可以通過使用邊界框或語義分割類型來實現(xiàn)。這是圖像標(biāo)注在農(nóng)業(yè)技術(shù)中最基本的應(yīng)用之一。
3)、安全系統(tǒng)
圖像標(biāo)注可以在安全系統(tǒng)中使用安全攝像頭標(biāo)記物品,比如某些特定區(qū)域中的可疑包裹。通過語義分割將視頻區(qū)域劃分為受限區(qū)域和非受限區(qū)域,可以實現(xiàn)這一目的。圖像標(biāo)注也可用于檢測某些可疑的活動。
4)、電子商務(wù)
圖像標(biāo)注用于改進(jìn)產(chǎn)品列表,還有助于確??蛻粽业剿麄冋趯ふ业恼_產(chǎn)品。這可以通過在搜索查詢和產(chǎn)品標(biāo)題中標(biāo)記各種組件的語義分割實現(xiàn)。
5)、機(jī)器人
圖像標(biāo)注的主要應(yīng)用之一是機(jī)器人技術(shù),它幫助機(jī)器人區(qū)分周圍環(huán)境中的各種物體。