環(huán)顧現(xiàn)有的帶語音識別能力的系統(tǒng),無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用戶在使用起來多少還是經(jīng)常想砸手機(jī),因?yàn)樗鼈兘?jīng)常擅自“自動(dòng)糾正”用戶話,可見要簡單地做個(gè)好的“聽寫員”實(shí)在是不容易。
然而,10月17日的時(shí)候,微軟發(fā)布了一份名為《達(dá)到與人類具備同等交流對話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們在語音識別上的技術(shù)已經(jīng)高于專業(yè)的人工速記員了。
為了能夠進(jìn)行比較,微軟的研究人員找來了一段它們具有正確腳本的音頻片段,并請來了一家第三方公司來進(jìn)行語音轉(zhuǎn)文本處理。這個(gè)第三方公司的操作方式分為兩部分:一名謄寫員邊聽音頻邊將內(nèi)容打出來,而另一名則一邊聽音頻一邊修正第一人提供的文本。隨后,根據(jù)和標(biāo)準(zhǔn)的正確文本對比,第三方公司的錯(cuò)誤率分別是 5.9% 和 11.3%。
而微軟的識別系統(tǒng),在經(jīng)過 2000 小時(shí)對人類交談素材的學(xué)習(xí)后,針對同一份音頻材料進(jìn)行了語音識別,錯(cuò)誤率分別為 5.9% 和 11.1%,數(shù)量上來看,比人類對照組少了十來個(gè)錯(cuò)誤。
雖然這次測試的成績不錯(cuò),但畢竟處理的音頻材料與真實(shí)生活場景的貼近性還是比較遙遠(yuǎn)。而微軟的研究人員也表明,下一步會(huì)將該系統(tǒng)放在帶有部分背景噪音的場景中,例如在派對或是在高速公路上行駛的汽車上。同時(shí),人類對照組的可參考性也還需要考究。但無論如何,希望這次的針對語音識別的研究突破不會(huì)成為那種被報(bào)道一次之后就消失的信息。