<strong id="5lvfi"><dl id="5lvfi"></dl></strong>

      • <tfoot id="5lvfi"><menuitem id="5lvfi"></menuitem></tfoot>
        <th id="5lvfi"><progress id="5lvfi"></progress></th>
          <strong id="5lvfi"><form id="5lvfi"></form></strong>
          <strong id="5lvfi"><form id="5lvfi"></form></strong>
        1. <del id="5lvfi"></del>

          華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開(kāi)源

          2025-8-15 9:12:00
          • 華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開(kāi)源

          華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開(kāi)源

          標(biāo)題:華為與銀聯(lián)共推UCM推理記憶管理:降低HBM依賴,長(zhǎng)序列推理與首Token時(shí)延顯著改善

          導(dǎo)語(yǔ)

          在“2025金融AI推理應(yīng)用落地與發(fā)展論壇”上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周越峰宣布,與中國(guó)銀聯(lián)聯(lián)合完成一項(xiàng)面向大模型推理的關(guān)鍵創(chuàng)新:UCM(推理記憶數(shù)據(jù)管理器)及其配套算法體系。這一方案以KV Cache為核心進(jìn)行記憶分層與調(diào)度,在HBM資源受限的條件下顯著提升推理效率與體驗(yàn),并計(jì)劃于2025年9月在魔擎社區(qū)開(kāi)源,向采用Share Everything(共享架構(gòu))的存儲(chǔ)廠商與生態(tài)伙伴開(kāi)放。

          一、推理側(cè)的真實(shí)壓力:窗口不夠大、首Token太慢、整體成本偏高

          需求曲線陡峭上升。ChatGPT訪問(wèn)量線性增長(zhǎng)至約4億,DeepSeek走紅進(jìn)一步推高國(guó)內(nèi)調(diào)用頻度。自2025年1月起,中國(guó)AI推理請(qǐng)求量激增,峰值擴(kuò)大約20倍。IDC預(yù)測(cè),到2027年中國(guó)側(cè)推理將占算力工作負(fù)載約72.6%(較2024年“訓(xùn)練60%/推理40%”顯著傾斜)。

          三大痛點(diǎn)清晰可見(jiàn)。長(zhǎng)文本場(chǎng)景激增導(dǎo)致上下文受限的模型“推不動(dòng)”;中美基礎(chǔ)設(shè)施差距疊加,使國(guó)內(nèi)大模型首Token時(shí)延普遍為海外頭部的一倍以上;吞吐率偏低,導(dǎo)致“推得貴”,單位Token成本難以下探。

          Token成為新量綱。周越峰指出,AI時(shí)代的體驗(yàn)與效率都可用Token度量,“Token經(jīng)濟(jì)”已成共識(shí):首Token時(shí)延、TPS與單位Token成本共同決定用戶端體驗(yàn)與供給側(cè)成本結(jié)構(gòu)。

          二、UCM的定位:圍繞KV Cache打造“記憶分層+算法協(xié)同”的推理加速套件

          UCM由三大組件構(gòu)成:

          Connector:面向多種推理引擎與異構(gòu)算力的適配插件;

          Accelerator:承載多級(jí)KV Cache管理與加速算法的功能庫(kù);

          Adapter:高性能KV Cache存取的I/O適配層。

          通過(guò)推理框架、算力與存儲(chǔ)三層聯(lián)動(dòng),UCM將“更優(yōu)體驗(yàn)/更低成本”的目標(biāo)落到工程化路徑上。

          核心機(jī)制是“冷熱分明、按需流動(dòng)”的記憶管理:

          實(shí)時(shí)高熱數(shù)據(jù)留在HBM;

          短期記憶下沉至DRAM;

          歷史/低熱上下文卸載至外部共享存儲(chǔ)SSD。

          在此基礎(chǔ)上,UCM疊加多種稀疏注意力與檢索加速策略,形成“存算協(xié)同”的一攬子優(yōu)化方案。

          三、兩大關(guān)鍵能力:多級(jí)緩存框架與動(dòng)態(tài)稀疏算法的組合拳

          框架與機(jī)制層

          提供多級(jí)緩存空間與智能流動(dòng)策略,支撐超長(zhǎng)序列的分層卸載與回遷;

          引入自適應(yīng)全局Prefix Cache,重點(diǎn)優(yōu)化首Token路徑,降低首Token時(shí)延并攤薄單位Token成本;

          結(jié)合后綴檢索、預(yù)測(cè)加速、PD檢索加速與Agent原生記憶加速等特性,進(jìn)一步提升端到端時(shí)延與吞吐。

          算法與協(xié)同層

          動(dòng)態(tài)Training稀疏加速:在長(zhǎng)序列場(chǎng)景下,通過(guò)稀疏注意力與計(jì)算重用顯著提升TPS;

          存算深度協(xié)同:依據(jù)記憶熱度與訪問(wèn)模式在HBM/DRAM/SSD間動(dòng)態(tài)遷移,最大化帶寬利用與緩存命中。

          由此帶來(lái)的量化收益(來(lái)自銀聯(lián)實(shí)測(cè)與大量測(cè)試):

          首Token時(shí)延最高可降低約90%;

          系統(tǒng)吞吐率最高可提升至22倍;

          上下文推理窗口可擴(kuò)展10倍以上;

          在銀聯(lián)“客戶之聲”業(yè)務(wù)中,端到端推理速度最高提升至125倍,約10秒完成客戶高頻問(wèn)題的精準(zhǔn)識(shí)別。

          四、為何“弱化HBM依賴”至關(guān)重要

          HBM在AI芯片中的角色:HBM3單堆棧帶寬可達(dá)約819 GB/s,是支撐LLM訓(xùn)練/推理的關(guān)鍵內(nèi)存技術(shù);

          現(xiàn)實(shí)制約:自2024年末起,HBM2E對(duì)華供給受限,國(guó)產(chǎn)替代仍在推進(jìn);

          UCM的意義:通過(guò)分級(jí)Cache與算法側(cè)“降本增效”,在HBM瓶頸下維持甚至提升推理體驗(yàn),兼顧可用性與性價(jià)比,為國(guó)內(nèi)AI推理生態(tài)提供工程化可行路徑。

          五、場(chǎng)景化落地:從金融客服到辦公協(xié)同

          UCM已在中國(guó)銀聯(lián)三大業(yè)務(wù)中進(jìn)行試點(diǎn):

          “客戶之聲”:面向客戶反饋的快速洞察與問(wèn)題歸因;

          “營(yíng)銷策劃”:面向活動(dòng)創(chuàng)意、目標(biāo)人群與素材生成的推理加速;

          “辦公助手”:支持文檔處理、問(wèn)答與流程輔助的高并發(fā)推理。

          試點(diǎn)顯示,UCM在真實(shí)業(yè)務(wù)負(fù)載與復(fù)雜語(yǔ)料環(huán)境下,仍能保持顯著的時(shí)延改善與吞吐提升。

          六、產(chǎn)業(yè)觀察:KV Cache成優(yōu)化焦點(diǎn),基礎(chǔ)設(shè)施與調(diào)度同等重要

          中國(guó)信通院曹峰指出,國(guó)產(chǎn)推理生態(tài)需要加速完善。隨著上下文窗口不斷擴(kuò)展,KV Cache成為系統(tǒng)級(jí)優(yōu)化的樞紐,高性能存儲(chǔ)與先進(jìn)調(diào)度策略的重要性愈發(fā)凸顯。

          華為AI存儲(chǔ)首席架構(gòu)師李國(guó)杰強(qiáng)調(diào),AI技術(shù)迭代以半年為周期,UCM不會(huì)止步于KV Cache分層管理,將面向Agentic AI的原生記憶管理與應(yīng)用加速延伸,支撐下一階段的多Agent協(xié)同與長(zhǎng)程任務(wù)記憶。

          七、開(kāi)源與生態(tài):魔擎社區(qū)首發(fā),面向共享架構(gòu)伙伴開(kāi)放

          華為計(jì)劃在2025年9月正式開(kāi)源UCM,于魔擎社區(qū)首發(fā),并向采用Share Everything(共享架構(gòu))的存儲(chǔ)廠商與生態(tài)伙伴共享。伴隨開(kāi)源推進(jìn)、標(biāo)準(zhǔn)化接口與參考實(shí)現(xiàn)的完善,UCM有望成為國(guó)內(nèi)長(zhǎng)序列推理與低時(shí)延交互的行業(yè)級(jí)“底座能力”。

          結(jié)語(yǔ)

          在推理需求暴增、成本壓力與供應(yīng)鏈約束并存的背景下,UCM以“記憶分層+稀疏算法+存算協(xié)同”的工程化路線,有效緩解HBM不足帶來(lái)的性能退化,顯著縮短首Token時(shí)延,并將長(zhǎng)序列場(chǎng)景的吞吐拉升至可用、好用的閾值之上。隨著在金融等高價(jià)值業(yè)務(wù)中的驗(yàn)證與即將到來(lái)的開(kāi)源,UCM為國(guó)產(chǎn)AI推理生態(tài)提供了一個(gè)兼顧性能與成本的清晰范式。

            <strong id="5lvfi"><dl id="5lvfi"></dl></strong>

              • <tfoot id="5lvfi"><menuitem id="5lvfi"></menuitem></tfoot>
                <th id="5lvfi"><progress id="5lvfi"></progress></th>
                  <strong id="5lvfi"><form id="5lvfi"></form></strong>
                  <strong id="5lvfi"><form id="5lvfi"></form></strong>
                1. <del id="5lvfi"></del>
                  国产乱伦第一页 | 乱伦小说亚洲 | 激情五月在线 | 欧美激情国产91在线 | 免费在线观看黄视频 |