以往,我們了解到一些世界領(lǐng)先的語(yǔ)音合成技術(shù),它們研發(fā)出來(lái)的“語(yǔ)音合成助手”軟件可以完美的完成語(yǔ)音合成工作。而最近阿里也推出了一項(xiàng)新語(yǔ)音合成技術(shù),錄音10分鐘即可定制專(zhuān)屬“AI聲音”。
7月10日,阿里巴巴發(fā)布新一代語(yǔ)音合成技術(shù)KAN-TTS,稱(chēng)可大幅提高合成語(yǔ)音與真人發(fā)聲的相似度,并將語(yǔ)音合成定制成本降低10倍以上。該技術(shù)由達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自主研發(fā)。
阿里方面稱(chēng),當(dāng)前業(yè)界商用系統(tǒng)的合成語(yǔ)音與原始音頻錄音的接近程度通常在85%-90%之間,而基于KAN-TTS技術(shù)的合成語(yǔ)音可將該數(shù)據(jù)提高到97%以上。
KAN-TTS深度融合了目前主流的端到端TTS技術(shù)和傳統(tǒng)TTS技術(shù),從多個(gè)方面改進(jìn)了語(yǔ)音合成,有望通過(guò)圖靈測(cè)試。阿里利用Multi-SpeakerModel與Speaker-awareAdvancedTransferLearning相結(jié)合的方法,將語(yǔ)音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說(shuō),用1小時(shí)有效錄音數(shù)據(jù)和不到兩個(gè)月制作周期,就能完成一次標(biāo)準(zhǔn)TTS定制。
此外,這使得普通用戶(hù)定制“AI聲音”的門(mén)檻更低。只需手機(jī)錄音十分鐘,就能獲得與錄制聲音高度相似的合成語(yǔ)音。
基于KAN-TTS的語(yǔ)音合成技術(shù)現(xiàn)在已經(jīng)向B端客戶(hù)開(kāi)放商用,它能基于5大場(chǎng)景(通用、客服、童聲、英文和方言)、提供34種不同聲音,而且能夠讓企業(yè)與個(gè)人定制其專(zhuān)屬“AI聲音”,該技術(shù)目前已經(jīng)用在了高德地圖、天貓精靈、夸克瀏覽器等應(yīng)用中。
語(yǔ)音合成是通過(guò)機(jī)械的、電子的方法產(chǎn)生人造語(yǔ)音的技術(shù)。TTS技術(shù)(又稱(chēng)文語(yǔ)轉(zhuǎn)換技術(shù))隸屬于語(yǔ)音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的漢語(yǔ)口語(yǔ)輸出的技術(shù)。
和語(yǔ)音合成一樣,語(yǔ)音識(shí)別技術(shù)也是實(shí)現(xiàn)人機(jī)語(yǔ)音通信,建立一個(gè)有聽(tīng)和講能力的口語(yǔ)系統(tǒng)所必需的關(guān)鍵技術(shù),越來(lái)越多的公司和行業(yè)都在向這方面靠攏。2017年,全球的語(yǔ)音識(shí)別軟件市場(chǎng)規(guī)模就已經(jīng)達(dá)到11億美元,隨著AI等各種技術(shù)的成熟,對(duì)語(yǔ)音識(shí)別的市場(chǎng)需求也在逐年提升。預(yù)計(jì)到2025年,全球語(yǔ)音識(shí)別市場(chǎng)的整體規(guī)模將達(dá)到69億美元。