欧美,日韩中文字幕在线,男女性杂交内射妇女bbwxz,久久99久久9国产精品免费看,久久久久无码精品国产app,免费无码成人片

a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺
公眾號
安全自動化

安全自動化

安防知識網(wǎng)

安防知識網(wǎng)

手機站
手機站

手機站

大安防供需平臺
大安防供需平臺

大安防供需平臺

資訊頻道橫幅A1
首頁 > 資訊 > 正文

適用于計算密集型系統(tǒng)的出色 FPGA 和 SoC平臺

離散數(shù)據(jù)類型精度支持

  系統(tǒng)設(shè)計人員正在探索簡化數(shù)據(jù)類型精度,以此實現(xiàn)計算性能的跳躍式提升,而且不會使精度明顯降低。

  機器學(xué)習(xí)推斷在降低精度方面一馬當先,首先是 FP16,然后是 INT16 和 INT8。研究人員正在探索進一步降低精度,甚至降到二進制。

  GPU ALU 通常原生支持單精度浮點類型 (FP32),有些情況支持雙精度浮點 (FP64)。FP32 是圖形

  工作負載的首選精度,而 FP64 經(jīng)常用于一些 HPC 用途。低于 FP32 的精度通常無法在 GPU 中得到有效支持。因此采用標準 GPU 上的更低精度,除了能減少所需存儲器帶寬以外,作用甚微。

  GPU 通常提供一些二進制運算功能,但通常只能每 ALU 進行 32 位寬運算。32 位二進制運算存在很大的復(fù)雜性和面積需求。在二值化神經(jīng)網(wǎng)絡(luò)中,算法需要 XNOR 運算,緊接著進行種群 (population) 計數(shù)。NVidia GPU 只能每四個周期進行一次種群計數(shù)運算,這會極大影響二進制計算。

  如圖 2 所示,為了與機器學(xué)習(xí)推斷空間的發(fā)展保持同步,GPU 廠商一直進行必要的芯片修改,以支持有限的幾種降精度數(shù)據(jù)類型,例如 FP16 和 INT8。例如,Tesla P4 和 P40 卡上的 NVidia GPU 支持 INT8,每 ALU/Cuda 內(nèi)核提供 4 個 INT8 運算。

                                           圖 2:英偉達降精度支持

  然而,英偉達面向 Tesla P40 上的 GoogLeNet v1 Inference 發(fā)布的機器學(xué)習(xí)推斷基準結(jié)果表明,INT8 方案與 FP32 方案相比效率只提升 3 倍,說明要在 GPU 架構(gòu)中強行降低精度并取得高效結(jié)果存在較大難度。

  隨著機器學(xué)習(xí)和其他工作負載轉(zhuǎn)向更低精度和定制精度,GPU 廠商需要向市場推出更多新產(chǎn)品,他們的現(xiàn)有用戶也需要升級平臺才能受益于這種改進。

參與評論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評論區(qū)僅供其表達個人看法,并不表明a&s觀點。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺,自1994年品牌成立以來,一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗,提供媒體、活動、展會等整合營銷服務(wù)。

免責聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟賠償!敬請諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號 粵公網(wǎng)安備 44030402000264號
用戶
反饋