近日麻省理工學(xué)院(MIT)計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究人員研發(fā)出了一個(gè)新的人工智能系統(tǒng),這個(gè)人工智能系統(tǒng)能夠通過(guò)觸覺(jué)信息生成視覺(jué)信息,也可以根據(jù)視覺(jué)片段預(yù)測(cè)觸覺(jué)。
相關(guān)論文將在下周的計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議上將發(fā)表一篇新的論文,這篇論文由CSAIL博士生Yun Zhu Li、MIT教授Russ Tedrake、Antonio Torralba和MIT博士后Jun Yan Zhu共同創(chuàng)作。
一、這個(gè)AI可以將視覺(jué)信息和觸覺(jué)信息相互進(jìn)行轉(zhuǎn)換
該小組的系統(tǒng)使用了GANs(生成對(duì)抗網(wǎng)絡(luò))把觸覺(jué)數(shù)據(jù)拼湊出視覺(jué)圖像。其中GANs的神經(jīng)系統(tǒng)被應(yīng)用在兩個(gè)部分,包括產(chǎn)生樣本的發(fā)生器和能夠區(qū)分產(chǎn)生樣本和真實(shí)樣本的鑒別器的兩部分神經(jīng)網(wǎng)絡(luò)。
樣本的獲取來(lái)源于一個(gè)名為visgel的數(shù)據(jù)集,visgel擁有超過(guò)300萬(wàn)個(gè)視覺(jué)/觸覺(jué)數(shù)據(jù)對(duì),其中包括12000個(gè)視頻剪輯,剪輯中包含了近200個(gè)物體(如工具、織物和家用產(chǎn)品)。
這一人工智能系統(tǒng)首先將識(shí)別機(jī)器人所接觸物體區(qū)域的形狀和材質(zhì),并在參考的數(shù)據(jù)集中進(jìn)行比對(duì),最終生成所接觸部位的圖像信息。
例如:如果給出鞋子上完整的觸覺(jué)數(shù)據(jù),這個(gè)模型就可以確定鞋子上最有可能被觸摸的位置。
數(shù)據(jù)集中參考照片有助于對(duì)環(huán)境的詳細(xì)信息進(jìn)行編碼,從而使機(jī)器學(xué)習(xí)模型能夠自我改進(jìn)。在這個(gè)研究中,他們?cè)趲?kù)卡機(jī)器人手臂上安裝了一個(gè)觸覺(jué)式凝膠視覺(jué)傳感器,這個(gè)傳感器由麻省理工學(xué)院的另一個(gè)小組設(shè)計(jì),可以將當(dāng)前的圖像與參考圖像進(jìn)行比較,以確定觸摸的位置和比例。
二、這個(gè)系統(tǒng)可以幫助機(jī)器人進(jìn)行自我學(xué)習(xí)
“通過(guò)觀察這個(gè)場(chǎng)景,我們的模型可以想象到觸摸到一個(gè)平坦的表面或鋒利的邊緣的感覺(jué)。”CSAIL博士生 Yun Zhu Li表示。
“在黑暗中進(jìn)行接觸的時(shí)候,僅從觸覺(jué)上,我們的人工智能模型就可以預(yù)測(cè)與環(huán)境的交互作用,把視覺(jué)和觸覺(jué)這兩種感覺(jué)結(jié)合在一起就可以強(qiáng)化機(jī)器人的能力,減少我們?cè)谔幚砗妥ト∥矬w的任務(wù)中可能需要的數(shù)據(jù)?!?/p>
研究人員注意到,當(dāng)前的數(shù)據(jù)集只有在受控環(huán)境中交互的例子,但是其中一些細(xì)節(jié),比如物體的顏色和柔軟度,仍然難以被系統(tǒng)推斷出來(lái)。
不過(guò),他們說(shuō),他們的方法可以在生產(chǎn)環(huán)境中為集成人類(lèi)機(jī)器人無(wú)縫銜接地打下基礎(chǔ),尤其是在缺少視覺(jué)數(shù)據(jù)的任務(wù)上。比如:當(dāng)燈熄滅或工人必須盲目地接觸容器時(shí)。