近日,在國(guó)際聲紋識(shí)別權(quán)威競(jìng)賽VoxSRC上,依圖算法奪得第一,等錯(cuò)誤率降到0.0098、大幅超越第二名。
并且,依圖團(tuán)隊(duì)(參賽隊(duì)伍名為logicworld)在使用指定數(shù)據(jù)的情況下取得了優(yōu)于其他團(tuán)隊(duì)使用不限數(shù)據(jù)得到的結(jié)果,表明依圖聲紋識(shí)別技術(shù)已達(dá)世界前沿水平。
(競(jìng)賽的任務(wù)是判斷兩段音頻是出自同一個(gè)人還是兩個(gè)不同的人,算法的輸出結(jié)果用等錯(cuò)誤率(Equal Error Rate,EER)來(lái)衡量,EER越小系統(tǒng)性能越好)
0.0098的等錯(cuò)誤率意味著什么?
首先,日常生活應(yīng)用基本能夠滿足,筆記本電腦和汽車(chē)的聲紋鎖功能越來(lái)越可靠,智能硬件上的虛擬助理將不會(huì)被他人用同樣的關(guān)鍵詞喚醒,成為真正屬于你的個(gè)人助理。
在社保遠(yuǎn)程身份驗(yàn)證、反電信詐騙等公共服務(wù)領(lǐng)域,精準(zhǔn)的聲紋識(shí)別技術(shù)也將更好地降本增效、服務(wù)民生,不需要再“居住異地,千里奔波”,更避免“九旬老人社保年審,家人抬著爬上三樓”。
聲紋識(shí)別擁有廣闊的應(yīng)用前景。不僅如此,將語(yǔ)音識(shí)別與聲紋識(shí)別、語(yǔ)義理解相結(jié)合,就能知道 “是誰(shuí)因?yàn)槭裁凑f(shuō)了什么”,將大幅增強(qiáng)智能語(yǔ)音個(gè)性化服務(wù),實(shí)現(xiàn)真正意義上的交互。
VoxSRC是由英國(guó)牛津大學(xué)、韓國(guó)互聯(lián)網(wǎng)巨頭Naver、斯坦福國(guó)際研究院和麻省理工學(xué)院聯(lián)合發(fā)起的全球聲紋識(shí)別競(jìng)賽,被譽(yù)為“聲紋識(shí)別界的ImageNet競(jìng)賽”。
本次比賽采用的數(shù)據(jù)集基于開(kāi)源數(shù)據(jù)集VoxCeleb,由牛津大學(xué)團(tuán)隊(duì)于 2017 年發(fā)布,后來(lái)逐漸擴(kuò)充,現(xiàn)在是聲紋識(shí)別領(lǐng)域規(guī)模最大、標(biāo)注最完備的開(kāi)源數(shù)據(jù)集之一。
VoxCeleb來(lái)自YouTube名人采訪視頻,包含了7000多個(gè)來(lái)自不同種族、口音、職業(yè)和年齡的說(shuō)話人,超過(guò)100萬(wàn)段的說(shuō)話聲,2000多小時(shí)的音頻和視頻,且基本都含有背景噪音、笑聲、說(shuō)話聲重疊及其他雜音,非常考驗(yàn)算法的實(shí)戰(zhàn)水平。同時(shí),本次比賽測(cè)試數(shù)據(jù)不含標(biāo)注,無(wú)法用來(lái)訓(xùn)練或調(diào)整系統(tǒng),確保了結(jié)果的公正與公平。
今年的VoxSRC吸引了來(lái)自海內(nèi)外多支隊(duì)伍參與,包括約翰霍普金斯大學(xué)、法國(guó)國(guó)家信息與自動(dòng)化研究所、清華大學(xué)、中山大學(xué)等知名高校和研究機(jī)構(gòu),以及平安科技、NEC等大型企業(yè)。
成立7年來(lái),依圖在視覺(jué)感知、自然語(yǔ)言處理、語(yǔ)音識(shí)別、智能決策等多技術(shù)領(lǐng)域發(fā)展,這次參賽VoxSRC是依圖在語(yǔ)音領(lǐng)域的一次新嘗試。
未來(lái),依圖將在多算法領(lǐng)域持續(xù)投入,推進(jìn)多模態(tài)技術(shù)融合、軟硬件協(xié)同開(kāi)發(fā),將世界前沿的人工智能算法與行業(yè)場(chǎng)景深度結(jié)合,推動(dòng)人工智能應(yīng)用落地。