據(jù)華為公眾號近日消息,日前在2025中國算力大會上,中國信息通信研究院聯(lián)合華為數(shù)據(jù)存儲、科大訊飛、浪潮、曙光、沐曦、清微智能、中國移動、中國電信、中國聯(lián)通等企業(yè),共同成立“先進存力AI推理工作組”,標(biāo)志著我國AI推理領(lǐng)域進入“存算協(xié)同、生態(tài)共建”的新階段。
華為介紹道,工作組凝聚產(chǎn)業(yè)界多方力量,成員覆蓋芯片、模型、存儲與行業(yè)應(yīng)用等廠商及用戶,聚焦AI推理領(lǐng)域的理論研究、實踐探索與生態(tài)建設(shè),推動AI推理應(yīng)用、AI推理框架、先進存力與智能算力的協(xié)同發(fā)展,促進AI普惠應(yīng)用。
在工信部指導(dǎo)下,工作組將圍繞四大核心任務(wù)展開工作:一是開展AI推理優(yōu)化理論研究,夯實技術(shù)基礎(chǔ);二是推進創(chuàng)新技術(shù)推廣,加速先進方案落地;三是主導(dǎo)或參與相關(guān)標(biāo)準(zhǔn)制定,規(guī)范產(chǎn)業(yè)發(fā)展;四是深化用戶實踐與試點建設(shè),同時強化產(chǎn)業(yè)生態(tài)構(gòu)建,推動配套政策布局落地,為AI推理產(chǎn)業(yè)提供“從技術(shù)到應(yīng)用”的全鏈條支撐。
作為工作組核心成員之一,華為近期發(fā)布的UCM推理記憶緩存管理器,成為解決推理成本與體驗難題的關(guān)鍵方案。該方案以KV Cache(鍵值緩存)為核心,是一款融合多類型緩存加速算法工具的推理加速套件,可通過分級管理推理過程中的KV Cache“記憶數(shù)據(jù)”,有效擴大推理上下文窗口,最終實現(xiàn)“高吞吐、低時延”的推理體驗,顯著降低單Token的推理成本。