欧美,日韩中文字幕在线,男女性杂交内射妇女bbwxz,久久99久久9国产精品免费看,久久久久无码精品国产app,免费无码成人片

a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺(tái)
公眾號(hào)
安全自動(dòng)化

安全自動(dòng)化

安防知識(shí)網(wǎng)

安防知識(shí)網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺(tái)
大安防供需平臺(tái)

大安防供需平臺(tái)

資訊頻道橫幅A1
首頁(yè) > 資訊 > 正文

阿里攜美國(guó)學(xué)院推出AI唇語(yǔ)解讀新方法

該方法利用視頻中的語(yǔ)音信息作為輔助線索,減少了AI對(duì)視頻中無(wú)關(guān)幀的關(guān)注,使其注意力更加集中。據(jù)研究人員稱,使用該方法的AI在兩個(gè)唇語(yǔ)閱讀基準(zhǔn)測(cè)試中,字符錯(cuò)誤率分別降低了7.66%和2.75%。

  據(jù)外媒報(bào)道,阿里巴巴浙江大學(xué)研究中心和史蒂文斯理工學(xué)院的研究人員近日推出了一種提升AI閱讀唇語(yǔ)準(zhǔn)確率的方法——“Lip by Speech(LIBS)”。

  該方法利用視頻中的語(yǔ)音信息作為輔助線索,減少了AI對(duì)視頻中無(wú)關(guān)幀的關(guān)注,使其注意力更加集中。據(jù)研究人員稱,使用該方法的AI在兩個(gè)唇語(yǔ)閱讀基準(zhǔn)測(cè)試中,字符錯(cuò)誤率分別降低了7.66%和2.75%。

  一、圖像語(yǔ)音相結(jié)合解讀唇語(yǔ)

  實(shí)際上,能夠從視頻中讀唇語(yǔ)的AI和機(jī)器學(xué)習(xí)算法并不是什么新鮮事物。早在2016年,谷歌和牛津大學(xué)的研究人員就詳細(xì)介紹了一種系統(tǒng),該系統(tǒng)可以以46.8%的精度注釋視頻素材,優(yōu)于專業(yè)讀唇語(yǔ)人員12.4%的精度。但是,即使是最先進(jìn)的系統(tǒng)也難以解決唇部運(yùn)動(dòng)的“一語(yǔ)多義”問(wèn)題,從而使唇語(yǔ)識(shí)別的準(zhǔn)確率一直無(wú)法超越語(yǔ)音識(shí)別。

  為了追求唇語(yǔ)閱讀性能更加強(qiáng)大的系統(tǒng),阿里巴巴浙江大學(xué)研究中心和史蒂文斯理工學(xué)院的研究人員設(shè)計(jì)了一種方法,稱為“Lip by Speech(LIBS)”。該方法利用從語(yǔ)音識(shí)別器中提取的特征信息作為補(bǔ)充線索。他們說(shuō),利用該方法的系統(tǒng)在兩個(gè)基準(zhǔn)測(cè)試中都達(dá)到了業(yè)界領(lǐng)先的準(zhǔn)確性,在字符錯(cuò)誤率方面分別降低了7.66%和2.75%。

  LIBS和其他類似的解決方案可以幫助那些聽(tīng)障人士觀看缺少字幕的視頻。據(jù)估計(jì),全世界有4.66億人患有失能性聽(tīng)力障礙(disabling hearing loss),約占世界人口的5%。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),到2050年,這一數(shù)字可能會(huì)超過(guò)9億。

  二、LIBS方法是怎樣應(yīng)用的?

  LIBS會(huì)以多種規(guī)模等級(jí),從有聲視頻中提取有用的音頻數(shù)據(jù),包括序列級(jí)(sequence level)、文本級(jí)(context level)和幀級(jí)(frame level)。然后,將這些提取的數(shù)據(jù)與視頻數(shù)據(jù)通過(guò)他們之間的對(duì)應(yīng)關(guān)系對(duì)齊,最后利用一種篩選(filtering)技術(shù)來(lái)優(yōu)化(refine)提取的數(shù)據(jù)。

  LIBS的語(yǔ)音識(shí)別器和唇語(yǔ)閱讀器這兩部分均為一種“基于注意力的序列到序列的(attention-based sequence-to-sequence)”體系結(jié)構(gòu),這種體系結(jié)構(gòu)可將一段音頻或視頻序列的輸入信息轉(zhuǎn)化為帶有標(biāo)簽和注意價(jià)值(attention value)的輸出信息。

  研究人員通過(guò)上述方法在LRS2數(shù)據(jù)集上對(duì)系統(tǒng)進(jìn)行訓(xùn)練,LRS2包含來(lái)自BBC的45,000多個(gè)口頭句子,同時(shí)也在CMLR上訓(xùn)練,CMLR是現(xiàn)有的最大中文普通話口語(yǔ)語(yǔ)料庫(kù),具有來(lái)自中國(guó)網(wǎng)絡(luò)電視臺(tái)的10萬(wàn)多個(gè)自然句子(包括3,000多個(gè)中文字符和20,000個(gè)詞組)。

  三、“幀級(jí)知識(shí)提取”是關(guān)鍵

  該團(tuán)隊(duì)指出,由于LRS2數(shù)據(jù)集中的某些句子過(guò)短,該系統(tǒng)難以在LRS2數(shù)據(jù)集上實(shí)現(xiàn)“合理的”結(jié)果。但是,一旦對(duì)最大長(zhǎng)度為16個(gè)單詞的句子進(jìn)行了預(yù)訓(xùn)練,解碼器就可以利用文本級(jí)的知識(shí),提高LRS2數(shù)據(jù)集中句子結(jié)尾部分的質(zhì)量。

  研究人員在論文中寫道:“LIBS減少了對(duì)無(wú)關(guān)幀的關(guān)注”,“幀級(jí)知識(shí)的提?。╢rame-level knowledge distillation)進(jìn)一步提高了視頻幀特征的可分辨性,使注意力更加集中?!?/p>


參與評(píng)論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評(píng)論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺(tái),自1994年品牌成立以來(lái),一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場(chǎng)趨勢(shì)的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國(guó)際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動(dòng)、展會(huì)等整合營(yíng)銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來(lái)源于互聯(lián)網(wǎng)共享平臺(tái)。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無(wú)意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請(qǐng)聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請(qǐng)諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號(hào) 粵公網(wǎng)安備 44030402000264號(hào)
用戶
反饋