11月12日,中國(guó)人工智能產(chǎn)業(yè)聯(lián)盟第十三次全會(huì)在北京召開(kāi),華為數(shù)據(jù)存儲(chǔ)聯(lián)合中國(guó)信通院、工信部人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測(cè)實(shí)驗(yàn)室、工商銀行、中國(guó)移動(dòng)、中國(guó)聯(lián)通、百度、阿里云、騰訊云、螞蟻集團(tuán)等正式發(fā)起“大模型基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃”,該計(jì)劃從需求角度出發(fā),以提升大模型基礎(chǔ)設(shè)施的質(zhì)量與效能為目標(biāo),共同加快布局“高效計(jì)算調(diào)度+高性能AI存儲(chǔ)+高通量網(wǎng)絡(luò)+高效能開(kāi)發(fā)平臺(tái)+智能化運(yùn)維平臺(tái)”,助力大模型工程化落地。
華為閃存存儲(chǔ)領(lǐng)域總裁黃濤參與啟動(dòng)儀式,并作為推進(jìn)計(jì)劃代表發(fā)表《構(gòu)建先進(jìn)AI存儲(chǔ),助力AI大模型高質(zhì)量發(fā)展》主題演講。
人類利用數(shù)據(jù)在AI領(lǐng)域取得長(zhǎng)足發(fā)展,數(shù)智時(shí)代是數(shù)據(jù)的黃金時(shí)代,隨著數(shù)據(jù)規(guī)模爆炸式增長(zhǎng)、數(shù)據(jù)價(jià)值不斷攀升,但同時(shí)我們面臨xPU與存儲(chǔ)的帶寬不足、算力集群可用度低、推理時(shí)延長(zhǎng)等挑戰(zhàn),這對(duì)存儲(chǔ)提出更高要求。黃濤提出,具備極致性能、高擴(kuò)展性、數(shù)據(jù)韌性、可持續(xù)發(fā)展、新數(shù)據(jù)范式以及數(shù)據(jù)編織能力的新一代AI存儲(chǔ)是通往AI數(shù)智時(shí)代的必由之路。
| 以存強(qiáng)算,AI集群可用度提升30%
隨著AI集群規(guī)模的擴(kuò)大,故障率也隨之變高,目前業(yè)界千卡以上的AI集群可用度往往不足50%,這意味著,即使我們不斷增加xPU的數(shù)量,其可用度卻呈反比降低,這對(duì)于成本高昂的AI集群來(lái)說(shuō)是極大的資源浪費(fèi),而提升訓(xùn)練集群存儲(chǔ)性能可以大幅縮短數(shù)據(jù)集加載時(shí)間,實(shí)現(xiàn)秒級(jí)CKPT(檢查點(diǎn))保存,分鐘級(jí)斷點(diǎn)續(xù)訓(xùn),有效提升算力集群可用度。
| 數(shù)據(jù)編織,實(shí)現(xiàn)跨域數(shù)據(jù)高效歸集,數(shù)據(jù)全局可視可管
隨著大模型的規(guī)模法則(Scaling Law)不斷演進(jìn),無(wú)論是在進(jìn)行CKPT的并行保存與加載、多模態(tài)數(shù)據(jù)的收集與清洗、全局?jǐn)?shù)據(jù)的Shuffle(混洗)與模態(tài)對(duì)齊,還是AI算法的調(diào)優(yōu)以及大規(guī)模集群的運(yùn)維診斷跟蹤,都迫切需要一個(gè)全局對(duì)等共享、單一命名空間、且具備高性能并行讀寫能力的大型文件系統(tǒng)。這樣的系統(tǒng)能夠避免多文件系統(tǒng)和多集群之間聯(lián)邦式的低效堆疊,從而顯著簡(jiǎn)化大規(guī)模集群環(huán)境下的數(shù)據(jù)調(diào)度和數(shù)據(jù)管理流程,進(jìn)而持續(xù)提高數(shù)據(jù)供應(yīng)的效率。
| 以存代算,長(zhǎng)記憶內(nèi)存型存儲(chǔ)提升推理體驗(yàn)并降低系統(tǒng)成本
AI推理是企業(yè)實(shí)現(xiàn)AI應(yīng)用商業(yè)化的先決條件,長(zhǎng)上下文處理技術(shù)不僅顯著提升了模型在多樣化任務(wù)中的表現(xiàn),而且為模型在實(shí)際應(yīng)用中的廣泛應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)。顯然,Long Context(長(zhǎng)上下文)處理技術(shù)已經(jīng)成為推理技術(shù)未來(lái)發(fā)展的主要趨勢(shì)。然而,在實(shí)際應(yīng)用中,長(zhǎng)上下文處理面臨著成本高昂和體驗(yàn)不佳的雙重挑戰(zhàn),尤其是在推理過(guò)程中KV-Cache存不下問(wèn)題尤為突出。迫切需要解決KV-Cache的全局共享和推理記憶的持久化問(wèn)題。因此,將KV-Cache實(shí)現(xiàn)分層緩存,并確保其高性能訪問(wèn),通過(guò)長(zhǎng)記憶內(nèi)存型存儲(chǔ)以存代替算來(lái)提升推理性能和成本效益,已成為技術(shù)發(fā)展的主流方向。
中國(guó)的AI存儲(chǔ)快速發(fā)展,華為與清華MADSys聯(lián)合的存儲(chǔ)方案,在24年首次獲得MLPerf Storage測(cè)試全球第一,2節(jié)點(diǎn)AI存儲(chǔ)性能高達(dá)679 GB/s,性能指標(biāo)達(dá)到第二名的2倍,在單位空間內(nèi)可以提供更多的性能。
存儲(chǔ)系統(tǒng)存在于大模型生命周期的每一環(huán),是大模型的關(guān)鍵基座,先進(jìn)AI存儲(chǔ)能夠提升訓(xùn)練集群可用度,保障數(shù)據(jù)安全,降低推理成本提升用戶體驗(yàn)。黃濤表示,在數(shù)據(jù)的黃金時(shí)代需要AI原生存儲(chǔ),產(chǎn)學(xué)研用需要加強(qiáng)合作引領(lǐng)AI原生存儲(chǔ)發(fā)展方向,助力AI大模型高質(zhì)量發(fā)展。