隨著科技的進(jìn)步和社會的發(fā)展,我們已經(jīng)從互聯(lián)網(wǎng)時代跨入了人工智能時代。人工智能時代和互聯(lián)網(wǎng)時代最大的差別就是互聯(lián)網(wǎng)的紅利漸漸開始消失,現(xiàn)在說已經(jīng)進(jìn)入人工智能時代還為時過早,二十已經(jīng)進(jìn)入互聯(lián)網(wǎng)+的時代,互聯(lián)網(wǎng)+即解決信息不對稱和連接問題,例如淘寶將用戶與賣家連接到一起,滴滴把司機(jī)和乘客連接到一起。但是互聯(lián)網(wǎng)+解決了連接問題,還有很多問題沒有解決,如效率和成本。
用人工智能代替生產(chǎn)力是未來的大勢所趨。比如采用虛擬機(jī)器人代替醫(yī)生做簡單的手術(shù),用虛擬老師教授知識,用語音識別代替會議記錄員等等。人工智能的應(yīng)用提高了生產(chǎn)力,降低了成本。所以與互聯(lián)網(wǎng)相比,未來我們更應(yīng)該關(guān)注人工智能。
人機(jī)交互界面變遷
說起人工智能的發(fā)展,就不得不提人機(jī)交互,初期的人機(jī)器交互是通過模板實現(xiàn),漸漸的衍生到用cmd交互,到現(xiàn)在變成了圖形化界面的人機(jī)交互。未來圖形人機(jī)交互的發(fā)展方向是大家都應(yīng)該關(guān)注的話題。
目前主流的人機(jī)交互發(fā)展方向是采用更自然的方式實現(xiàn),因此語音交互就走入人們的視野。語音交互的優(yōu)勢是不需要用手、眼睛,例如開車時可以直接命令設(shè)備播放音樂、新聞等。而與設(shè)備的人機(jī)交互并不能滿足日益增長的社會需求,從而就催始了智能虛擬人的研發(fā)。
智能虛擬人其實就是用技術(shù)模擬人體的各個器官,如用自然語言處理/對話系統(tǒng)模擬人的大腦,用圖像識別技術(shù)模擬人的眼睛,用語音識別/發(fā)音糾錯模擬人的耳朵,用語音合成模擬人的嘴巴,另外用最新的audio to video虛擬出人的形象,從而智能虛擬人誕生了。
智能虛擬人的四大核心技術(shù)
在實際的應(yīng)用中,與智能虛擬人直接交互需要用到四大核心技術(shù)。
第一,發(fā)音糾錯/語音識別。發(fā)音糾錯技術(shù)顧名思義就是糾正人的發(fā)音問題。在實際應(yīng)用最多的案例就是虛擬老師,與虛擬老師的交互過程中,機(jī)器可以明確的指出發(fā)音錯誤的地方,糾正范圍包含全面,如音標(biāo)、長短音、語調(diào)等,可以實現(xiàn)精細(xì)化糾正,并形成學(xué)習(xí)報告,便于課后的復(fù)習(xí)掌握。
第二,自然語言處理/對話系統(tǒng)。語言學(xué)習(xí)過程中,除了需要糾正發(fā)音外,還需要場景的聯(lián)系,而虛擬人陪練就可以隨時隨地的實現(xiàn)這個目標(biāo)。在模擬場景中,虛擬人通過角色扮演,完成多輪的對話。從而達(dá)到聯(lián)系的目的。
第三,個性化語音合成。人類語言的個性化體現(xiàn)在音色的層面,個性化語音合成技術(shù)可以定制特定人的聲音,實現(xiàn)將任何一個人的聲音變成另外一個人的聲音。如可以在保持錄音內(nèi)容不變的情況下,將錄音中的聲音變成林志玲、奧巴馬等名人的聲音,也可以將男人的聲音變成女人的聲音。通過少量的音頻數(shù)據(jù),訓(xùn)練完成后即可以變換成特定的聲音。該項技術(shù)可以應(yīng)用在電影電視配音、虛擬老師學(xué)習(xí)等場景。例如,在英語學(xué)習(xí)時用自己的聲音代替標(biāo)準(zhǔn)發(fā)音,體會自己標(biāo)準(zhǔn)發(fā)音,從而排除音色干擾,提高學(xué)習(xí)效率;將兒童故事機(jī)器人中陌生人的聲音轉(zhuǎn)換成小孩爸爸媽媽的聲音,給小孩講故事,具有更大的吸引力和趣味性。
第四,圖像/視頻處理。通過定制化虛擬出需要的形象。除了輸出聲音,還可以合成視頻。
目前有兩種合成視頻的模式,第一種是將原始的音視頻與新的音頻結(jié)合,合成新的音視頻。只需要錄制一段音頻就可以合成視頻,可以明顯的降低視頻錄制時間。例如外教英語視頻錄制,只需要錄制一些視頻片段,后續(xù)如果需要補錄的話成本較高,就可以直接補錄一段音頻,與原視頻合成后形成需要補錄的視頻,降低了錄制的成本。
第二種是只要有原始的音視頻和新的文本,直接從文本合成視頻,相對來說技術(shù)更加復(fù)雜,難度更大。
應(yīng)用場景眾多
智能虛擬人的應(yīng)用場景可以覆蓋許多領(lǐng)域,包含有教育、娛樂、客服(金融/電信/電商)、旅游等領(lǐng)域。
首先,教育領(lǐng)域的虛擬老師,虛擬老師英語教學(xué)已經(jīng)有很多應(yīng)用的案例,通過英語學(xué)習(xí)類APP或者智能硬件(智能平板、智能機(jī)器人)幫培訓(xùn)機(jī)構(gòu)解決外教問題,虛擬老師和真人的助教配合,實現(xiàn)雙師課堂。教育的教書部分,即傳遞知識方面由機(jī)器完成,育人需要助教實施,教書是重復(fù)性的勞動,機(jī)器會比人更擅長。
虛擬機(jī)器人可以在學(xué)習(xí)中實現(xiàn)個性化的反饋,通過學(xué)生答題器,精準(zhǔn)掌握學(xué)生學(xué)習(xí)情況,針對錯誤和易混淆單詞設(shè)置課后復(fù)習(xí),做到因材施教。這種課程方式相比于傳統(tǒng)的大班課有很大的優(yōu)勢,基于虛擬人技術(shù)和數(shù)據(jù),搭配助教和人臉識別、情緒識別技術(shù),就可以形成高質(zhì)量的教育課程。
其次,娛樂領(lǐng)域的虛擬主播,實現(xiàn)時效性的新聞播報,傳統(tǒng)的真人主播需要錄音、剪輯后播報,影響時效性,真人實時出鏡時效性高的新聞對主播的要求高。虛擬主播只要輸入音頻或者文字,就可以把新聞播報出來,簡單、便捷、成本低。
另外,目前較為流行的游戲的解說主播,也可以通過虛擬形象+真人主持的模式實現(xiàn)。主播有真實頭像會比只有音頻播放量高十倍。
通過虛擬主播幫助媒體融合轉(zhuǎn)型,在新聞時效性和跨語種傳播能力等方面再上臺階,實現(xiàn)了在不同場景下更為自然的人機(jī)交互,
再次,虛擬客服,銀行傳統(tǒng)的真人窗口服務(wù)逐漸演變?yōu)楝F(xiàn)在的機(jī)器+遠(yuǎn)程真人驗證服務(wù),而用虛擬客服后,開戶、驗證都可以實現(xiàn),如有突發(fā)情況再真人參與,大大降低人力成本。
最后,旅游領(lǐng)域的智能導(dǎo)游,傳統(tǒng)需要導(dǎo)游講解景點、歷史文化等。用機(jī)器替代真人實現(xiàn)智能導(dǎo)游,可以手機(jī)APP智能講解、簡單互動,如廁所、景點、餐館的地址查詢互動,也可以通過智能感應(yīng)游客后音頻講解。
未來智能虛擬人的引用可以實現(xiàn)自由對話,可以教我們學(xué)語言,也可以播新聞,更可以實時滿足人類的交互需求。
可能引發(fā)犯罪問題?
技術(shù)是把雙刃劍,能豐富和改變我們的生活,也能改變我們認(rèn)知。技術(shù)在一方面的確可以幫助我們,但如果惡意使用,可能就會造成很大負(fù)面的影響,而智能虛擬人技術(shù)的發(fā)展應(yīng)用也存在需要防范的問題。
AI技術(shù)已能達(dá)到構(gòu)建完全虛擬的人物面孔和動物形態(tài),人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)可以用來輕易的虛構(gòu)圖片和視頻使人們對此深信不疑,畢竟眼見為實嘛!小編擔(dān)心,如果工具被惡意利用,制造假新聞、惡作劇、電話詐騙等,如名人發(fā)布講話被篡改,合成語音的騷擾電話、詐騙電話時,我們又該怎么解決?
答案就是聲紋識別,通過聲紋識別技術(shù)可以對視頻進(jìn)行鑒定,去確定視頻中是否本人講話,甚至可以判斷出聲音是合成還是轉(zhuǎn)換的。而我們正規(guī)利用虛擬人時也可以通過技術(shù)的方式,將合成的視頻做標(biāo)記,以防止被其他不法分子利用。
小結(jié)
虛擬人作為一個新興事物,其應(yīng)用范圍的擴(kuò)展、使用頻率的提高是一個必然的趨勢,伴隨著硬件技術(shù)與傳播理念的不斷演進(jìn),虛擬人在分類、潛在優(yōu)勢挖掘、跨媒體使用等方面將會大有長進(jìn),未來還將在娛樂、客服、醫(yī)療健康、教育、法律等多個領(lǐng)域提供個性化的內(nèi)容。終有一日,如同機(jī)器人必將走進(jìn)我們的生活當(dāng)中一樣,它會給我們現(xiàn)有的格局帶來一個全新的詮釋。
以上部分內(nèi)容根據(jù)聲??萍悸?lián)合創(chuàng)始人孫立發(fā)博士在2019年人工智能技術(shù)峰會AI圖像與語音識別技術(shù)上的演講整理