隨著神經(jīng)網(wǎng)絡(luò)越來越復(fù)雜,計(jì)算量越來越龐大,神經(jīng)網(wǎng)絡(luò)的架構(gòu)也不斷發(fā)生變化,因而產(chǎn)生了可用于嵌入式系統(tǒng)的高性能、通用神經(jīng)網(wǎng)絡(luò)處理方案需求??请娮?Cadence Design Systems)稍早前公布了新的獨(dú)立神經(jīng)網(wǎng)絡(luò)DSP IP內(nèi)核Vision C5技術(shù)細(xì)節(jié),這個(gè)據(jù)稱是業(yè)內(nèi)首款獨(dú)立的神經(jīng)網(wǎng)絡(luò)DSP可運(yùn)行于所有的神經(jīng)網(wǎng)絡(luò)層,其計(jì)算能力達(dá)到1TMAC /秒,硅面積為1mm2。
Vision C5 DSP針對(duì)視覺、激光雷達(dá)和傳感器融合應(yīng)用進(jìn)行了優(yōu)化,瞄準(zhǔn)汽車電子、監(jiān)控、無人機(jī)和移動(dòng)裝置市場(chǎng)。這些新興市場(chǎng)的共通特色是需要極低功耗,同時(shí)需要高度可編程,以應(yīng)對(duì)產(chǎn)品開發(fā)的靈活性和降低風(fēng)險(xiǎn)。
神經(jīng)網(wǎng)絡(luò)DSP vs.神經(jīng)網(wǎng)絡(luò)加速器
嵌入式視覺聯(lián)盟的創(chuàng)始人Jeff Bier指出,在真實(shí)世界中,深度學(xué)習(xí)的應(yīng)用程序非常豐富多樣,計(jì)算需求也極具挑戰(zhàn)性。
在汽車、無人機(jī)和安全系統(tǒng)中,基于攝像機(jī)的視覺系統(tǒng)需要兩種基本類型的視覺優(yōu)化計(jì)算。首先,使用傳統(tǒng)計(jì)算攝影/成像算法增強(qiáng)了攝像機(jī)的輸入;其次是基于神經(jīng)網(wǎng)絡(luò)的識(shí)別算法用于執(zhí)行對(duì)象檢測(cè)和識(shí)別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案是連接到成像DSP的硬件加速器,神經(jīng)網(wǎng)絡(luò)代碼在DSP上運(yùn)行一些網(wǎng)絡(luò)層并將卷積層卸除到加速器之間進(jìn)行拆分。這種方法不僅效率低下,而且會(huì)消耗許多不必要的電力。
圖片來源:Cadence Design System公司
而Vision C5 DSP架構(gòu)解決了這個(gè)問題,它針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化,可加速所有神經(jīng)網(wǎng)絡(luò)計(jì)算層(卷積、完全連接、匯集和歸一化),而不僅僅是卷積函數(shù)。這使得主要的視覺/成像DSP可獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用,而Vision C5 DSP則運(yùn)行推理任務(wù)(inference task)。
通過消除神經(jīng)網(wǎng)絡(luò)DSP和主要視覺/成像DSP之間的無關(guān)數(shù)據(jù)移動(dòng),Vision C5 DSP提供比競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)加速器更低功率的解決方案。它還為神經(jīng)網(wǎng)絡(luò)提供了一個(gè)簡(jiǎn)單的單處理器編程模型。
Cadence的Tensilica營(yíng)銷高級(jí)總監(jiān)Steve Roddy認(rèn)為,今天許多工程人員難以抉擇神經(jīng)網(wǎng)絡(luò)平臺(tái)的情況可望在未來幾年內(nèi)獲得改善。“這是因?yàn)楫?dāng)前所有的替代方案都要做很多不必要的性能折衷,而我們必須讓神經(jīng)網(wǎng)絡(luò)處理器永遠(yuǎn)在線、降低其功耗,而且要令其在每個(gè)圖像上都能快速運(yùn)行。作為通用神經(jīng)網(wǎng)絡(luò)DSP,新的Vision C5易于集成和非常靈活,同時(shí)能比CNN加速器,GPU和CPU提供更好的電源效率。”
作為獨(dú)立DSP引擎,Vision C5具有1,024個(gè)8位MAC或512個(gè)16位MAC,可以在8位和16位分辨率下實(shí)現(xiàn)更好的性能,這個(gè)IP具有128路8位SIMD或64路16位SIMD的VLIW SIMD架構(gòu),適用于多核設(shè)計(jì),并集成了iDMA和AXI4接口。
為了適應(yīng)不同的應(yīng)用需求,Vision C5 DSP支持可變內(nèi)核大小、深度和輸入尺寸,同時(shí)也適應(yīng)幾種不同的系數(shù)壓縮/解壓縮技術(shù),并能在新的層次的支持下進(jìn)行添加。相比之下,硬件加速器提供了一個(gè)剛性的解決方案,因?yàn)榭芍匦戮幊绦愿佑邢蕖?/p>
據(jù)表示,Cadence稱與商用GPU相比,Vision C5 DSP在知名的AlexNet CNN性能基準(zhǔn)上提高了6倍,在初始版V3 CNN性能基準(zhǔn)上提高了9倍。為了方便開發(fā)者,Vision C5 DSP配備了Cadence神經(jīng)網(wǎng)絡(luò)映射器工具集,它將任何采用Caffe和TensorFlow等工具訓(xùn)練的神經(jīng)網(wǎng)絡(luò)映射到Vision C5 DSP的代碼中,利用一套全面的手動(dòng)優(yōu)化神經(jīng)網(wǎng)絡(luò)庫(kù)函數(shù)。