當(dāng)前,人工智能已步入發(fā)展深水區(qū),AI推理正成為下一個(gè)爆發(fā)式增長(zhǎng)的關(guān)鍵階段,推理體驗(yàn)和推理成本成為了衡量模型價(jià)值的黃金標(biāo)尺。
但“推不動(dòng)”“推得慢”“推得貴”(運(yùn)算成本太高)等成為了AI推理過(guò)程中遇到的難題。
近日,華為重磅推出了其AI推理創(chuàng)新技術(shù)UCM(Unified Cache Manager,推理記憶數(shù)據(jù)管理器)。旨在推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。
值得注意的是,據(jù)媒體報(bào)道,UCM技術(shù)有望緩解當(dāng)前因HBM(高帶寬內(nèi)存)資源短缺導(dǎo)致的任務(wù)停滯與響應(yīng)延遲問(wèn)題,為AI應(yīng)用提供更流暢的體驗(yàn),從而減少行業(yè)對(duì)HBM的過(guò)度依賴。
UCM技術(shù)以KV Cache為中心,融合了多類型緩存加速算法工具,對(duì)推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù)進(jìn)行分級(jí)管理,旨在擴(kuò)大推理上下文窗口,實(shí)現(xiàn)高吞吐、低延遲的推理體驗(yàn),同時(shí)降低每Token的推理成本。
據(jù)華為官方介紹,UCM技術(shù)具備智能分級(jí)緩存能力,可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng);同時(shí)融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理token數(shù))提升2-22倍,顯著降低每Token推理成本。
同時(shí),依托UCM層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),系統(tǒng)能直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,使首Token時(shí)延最大降低90%。同時(shí),UCM將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ),通過(guò)算法創(chuàng)新突破模型和資源限制,實(shí)現(xiàn)推理上下文窗口10倍級(jí)擴(kuò)展,滿足長(zhǎng)文本處理需求。