在很多國外科幻大片所描述的未來生活中,使用語音方式來操控家電的炫酷場景無處不在。比如在《美國隊長 2》中,神盾局的頭子用語音操控虛擬桌面、窗簾和電視;在《鋼鐵俠》系列電影中,男主角回到家以后,說聲想喝咖啡,咖啡機便開始沖咖啡;在《碟中諜 4》中,阿湯哥通過用語音來開燈和開電視。
科幻片中這樣的未來并非憑空想象,國內外的IT 巨頭已先后以智能家庭產品與語音相結合的方式進入智能家庭領域:谷歌收購 NEST 布局智能家庭,不斷強化 Google Now的語音入口;蘋果 HomeKit 智能家居平臺與 Siri也不斷加強融合;微軟近期也發(fā)布語音助手 Cortana,為它在智能家庭領域擴展交互入口;國內的科大訊飛亦攜手京東宣告雙方將在智能家居和語音技術領域展開全面合作。從這些國內外科技大佬們對語音產業(yè)的重視和投入,可以看出智能語音與智能家庭的融合是大勢所趨,業(yè)內普遍認為語音作為人類信息最自然、最便捷的交互方式,必將成為未來智能家居設備中的重要組成部分。
隨著國內外巨頭們對語音交互領域投入的增加,語音核心技術正逐步成熟,曾經的技術瓶頸亦在慢慢被突破。這其中語音識別技術是語音交互的基礎與核心,「語音識別」技術相當于給計算機系統(tǒng)安裝上「耳朵」,使其具備「能聽」的功能。該技術經過語音信號處理、語音特征處理、模型訓練及解碼引擎等復雜步驟,使機器最終能夠將語音中的內容、說話人、語種等信息識別出來。
主流的語音識別系統(tǒng)框架圖
了解了語音識別的基礎內容和系統(tǒng)框架之后我們來看看,語音識別技術要在智能家居生活中真正實用,必須要過哪 5 關?
一、距離:遠場識別技術打破距離瓶頸
近場識別技術目前已經比較成熟,現在手機上使用的語音輸入功能就屬于近場識別技術,用戶必須在離手機比較近的距離內說話,但在智能家居環(huán)境中,用戶和智能終端之間的距離被大大增加了,用戶能隨意用語音控制智能家居的一個必要條件就是在無論你在客廳哪個角落發(fā)出指令,設備都能準確的識別,語音識別技術必須突破距離的障礙。
目前室內的語音交互受到背景噪音、其他人聲干擾、回聲、混響等多重復雜因素影響,導致識別率低甚至無法使用,只能在相對安靜、近距離的環(huán)境下使用。而遠場識別技術將能夠很好的解決這些問題。
目前的遠場識別技術已經能夠支持超過 5 米的語音識別,突破了語音交互距離瓶頸,大幅度改進了語音交互的自由度。該技術利用麥克風陣列的空域濾波特性——在目標說話人方向形成拾音波束(BeamForming),抑制波束之外的噪聲,結合獨特的去混響算法,最大程度的吸收反射聲,從而達到去除混響的目的,用戶在客廳的任意角落通過語音操控智能家電已成為現實。
二、效率:又快又準
近年來,隨著深度學習理論的爆發(fā)式發(fā)展及其在語音識別領域獲得的顯著效果,同時 Kaldi等開源語音識別工具也在工業(yè)界和學術界逐漸普及,語音識別的門檻持續(xù)降低,許多公司都具備了語音識別的能力及相關產品,但其實很多使用過 Siri的國內用戶都會有這樣的感覺: Siri的反應太慢,說出一句話往往要等待很久才能顯示結果,另外,準確率也不高,離好用還有很遠的距離。
要持續(xù)優(yōu)化準確率和響應速度的問題,必須要在核心技術和產品特性上做出創(chuàng)新,目前國內領先的解決方案是在把深度神經網絡技術引入語音識別的基礎上,基于深度神經網絡的語音增強算法對輸入語音進行「識別關鍵信息無損」的降噪,通過海量訓練語料基礎上的高精度聲學模型和語言模型訓練,并結合極致的解碼引擎工程技術,實現了在很小延遲的情況下,做到將去除原始語音的噪聲干擾和識別幾乎同時,大大提高了語音輸入的響應速度和用戶體驗,最終實現在大詞匯連續(xù)語音識別率上可以達到 95%以上,命令詞識別率達到 99%以上,解碼引擎可以在用戶說完話 40 毫秒之內給出結果,真正實現「秒懂」。
三、個性化:越來越懂你
每個人在說話時,口音、語速、口頭禪都不一樣,那么家里的智能設備只會識別一些基本詞句顯然是遠遠不夠的,它們必須要更懂你。比如,懂你的口音、方言、口頭禪以及時不時蹦出的專業(yè)詞匯等。
語言個性化方案
讓智能設備適應每個人的使用習慣可能嗎?答案是肯定的。這里要用的到就是語音識別的另外一項關鍵技術——個性化識別技術。個性化識別指的是語音識別系統(tǒng)具備自動學習并適應用戶使用習慣的能力,你用的越多,它越懂你。一般來說,個性化識別包括發(fā)音和語言兩方面。其中發(fā)音個性化主要是指系統(tǒng)對用戶語速、口音等發(fā)音習慣的學習,而語言個性化主要是指系統(tǒng)可以對用戶的特定詞匯(例如人名、地名、口頭禪、專業(yè)詞匯等)具備更好的辨識性。
目前業(yè)內成熟的個性化識別技術已能針對每個人的興趣點、知識背景等來進行個性化語言模型建模,從而準確識別出個性化的詞匯內容。以后你用的越多,語音識別系統(tǒng)就會越懂你。
四、方言:普通話標不標 zun 也照樣能用
眾所周知,中國的語音及語言博大精深,雖然國家在推廣標準普通話方面不遺余力,但是中國真正掌握標準普通話的人群比例還是比較低的,而中國的口音現象則是紛繁復雜,甚至會出現同城市中都有不同口音的情況。因此,當這些帶有或輕或重口音的人群在使用語音輸入時,如果按通常的方法使用標準普通話數據進行模型的訓練,就會產生很嚴重的適配問題,從而影響語音輸入時的識別效果。
「方言」現在也不再是語音識別的障礙,得益于各類方言豐富的音頻數據、特殊詞匯、發(fā)音現象等專業(yè)資源以及充分利用深度神經網絡的自學習特色,目前,訊飛輸入法已經陸續(xù)支持四川話、河南話、東北話、天津話等 15 種方言識別,這些方言識別能力同樣適用于智能家居環(huán)境中。以后,無論你使用普通話還是方言,無論你說話語速快還是慢,普通話標不標 zun,在家里都能自由地使用語音控制智能設備。
五、語音喚醒:真正解放雙手
由于功耗等方面的限制,智能設備很難 24 小時都保持在激活狀態(tài)。因此,要想在家里自由地控制智能家居設備,我們還需要能即時「喚醒」功能,也就是給智能設備加入「語音喚醒」技術。
語音喚醒,是指通過含有特定喚醒詞的語音輸入來「觸發(fā)」語音識別系統(tǒng)以實現后續(xù)的語音交互。通過該技術,任何人在任何環(huán)境、任何時間,無論是近場(0.5 米以內)還是遠場(2~5 米),面向設備直接說出預設的喚醒詞,就能激活產品的識別引擎,從而真正實現全程無觸控的語音交互。
除了說單個喚醒詞實現喚醒外,更自然便捷、在技術上更具有挑戰(zhàn)性的交互方式是在連續(xù)語流中帶上喚醒詞,以實現喚醒產品并同時實現操控的效果,比如直接在語音助手中說出「打電話給張三」就可以喚醒設備并自動完成人名識別與撥打電話。
隨著語音識別技術在距離、效率、個性化、方言、喚醒等多方面一一突破實用瓶頸,隨心所欲「聲」控智能家居的時代一觸即發(fā),那么這一變革多久會來?也許在明年,也許就在明天。
相關閱讀:
Wi-Fi偽智能或失寵 ZigBee上位的五大理由
把爸媽的晚年生活交給智能家居 你放心嗎?