
在這輪AI快速發(fā)展浪潮中,算力體系的軟硬件協(xié)同能力被不斷“打磨”:從底層芯片架構(gòu)優(yōu)化,到大模型形態(tài)逐步收斂,再到算力調(diào)度與編排機制持續(xù)升級,整個鏈條的技術(shù)演進,已經(jīng)在很大程度上緩解了算力供給和應用需求之間的錯配問題。
當“算力不足”不再是AI落地的首要瓶頸后,“存力”的地位迅速提升,成為決定算力價值能否高效釋放的關(guān)鍵一環(huán)。
存力的核心在于:數(shù)據(jù)能存多少、讀寫有多快、是否足夠安全可靠。無論是大模型訓練,還是端側(cè)與云端的實時推理,對存儲的性能指標、架構(gòu)形態(tài)以及成本控制都提出了新要求。2025年以來,AI從云向端側(cè)延展,AI推理的市場空間甚至超過訓練,圍繞“AI存儲”的新一輪技術(shù)和產(chǎn)品創(chuàng)新正在加速落地。
一、HBM4E與定制化高帶寬存儲
1. 臺積電 C-HBM4E:基礎裸片“邏輯化”
臺積電提出,HBM將在HBM4E時代進入“定制化”階段,即 C-HBM4E。其核心思路,是在HBM的基礎裸片中直接集成內(nèi)存控制器(MC),幫助主芯片節(jié)省大量邏輯面積,并提升系統(tǒng)能效。
臺積電將提供基于 N3P 先進制程的基礎裸片解決方案
相比HBM3E時代的基礎裸片,能效可提升約 2 倍
C-HBM4E 的工作電壓 Vdd 僅約 0.75V,比HBM4進一步降低,繼續(xù)壓縮功耗
此前,SK 海力士已與臺積電簽署HBM4合作諒解備忘錄,由臺積電為其生產(chǎn)HBM4基礎裸片,這也意味著HBM4開始普遍引入外部先進邏輯工藝,而不再全部依賴存儲廠自身制程。
SK 海力士公開展示的HBM4樣品采用 12 層堆疊結(jié)構(gòu),借助臺積電 N3 工藝的基底裸片,實現(xiàn)了:
單顆容量 36GB
帶寬 2TB/s
相比HBM3E,傳輸速度提升超 60%
美光在下一代 HBM4E 產(chǎn)品規(guī)劃中,同樣選擇與臺積電合作制造基底邏輯芯片,覆蓋標準產(chǎn)品和定制化版本。美光預計 HBM4E 將在 2027 年正式推出;三星則計劃最早在明年上半年完成 HBM4E 的研發(fā)。
二、HBF:面向推理的大帶寬閃存
SanDisk 閃迪在今年2月展示了面向AI的新型高帶寬閃存(HBF,High Bandwidth Flash),本質(zhì)上是“把HBM的堆疊思路搬到NAND上”。
采用類似HBM的堆疊結(jié)構(gòu),通過 TSV 將多顆高性能 3D NAND 核心芯片垂直堆疊
結(jié)合自家 BiCS 3D NAND 與 CBA(CMOS Bonded to Array)技術(shù),將存儲陣列鍵合在I/O邏輯芯片之上
單堆棧采用 16 顆核心芯片,容量最高可達 512GB
8 顆HBF堆疊可實現(xiàn) 4TB 容量
HBF在帶寬上可以接近HBM,但由于底層仍是NAND,延遲明顯高于DRAM。因此它更適合讀取密集型的AI推理任務,而不是極度敏感的實時場景。
根據(jù)介紹,單顆HBF有望容納一個完整的 64B 級別大模型,具備在手機端本地運行大模型、以及在自動駕駛、AI玩具、IoT等端側(cè)或邊緣設備場景中提供低功耗、高容量AI存儲的潛力。
來自韓國科學技術(shù)高等研究院(KAIST)的 Joungho Kim 教授(業(yè)內(nèi)稱“HBM之父”)提出了“HBM+HBF”的分層思路:
以前端 100GB HBM 作為緩存層
后端掛接約 1TB 的 HBF
這樣在不犧牲整體性能的前提下,放大成本和容量優(yōu)勢。
時間表方面:
SanDisk 預計在 2026 年下半年交付第一批HBF樣品
基于HBF的AI推理設備樣機預計在 2027 年初問世
SK 海力士推出“AIN系列”新品線,其中已包含HBF產(chǎn)品
三星也啟動自有HBF方案的概念設計
Kioxia(鎧俠)在今年8月展示了一款 5TB 級別的超高速HBF原型
三、HBS:DRAM+NAND 立體疊堆的新形態(tài)
SK 海力士還在研發(fā)另一條高帶寬存儲技術(shù)路線——HBS(High Bandwidth Storage),核心是將DRAM和NAND以更緊湊的三維方式整合。
關(guān)鍵技術(shù)是 VFO(Vertical Feed-Out,垂直導線扇出)封裝工藝:
采用銅線而非常規(guī)銅柱,通過階梯式堆疊DRAM,并灌注環(huán)氧樹脂固定
再通過垂直柱狀導線和重新分布層(RDL)將多層芯片連接至基板
最多可實現(xiàn) 16 層 DRAM 與 NAND 芯片的垂直堆疊
VFO 將 FOWLP(晶圓級扇出封裝)與多層DRAM堆疊結(jié)合,顯著縮短層間連線:
信號線路長度縮短至傳統(tǒng)方案的 1/4 以下
整體能效提升約 4.9%
封裝厚度減少約 27%,散熱略有增加(約 1.4%)
與HBM依賴的TSV工藝不同,HBS可在不使用TSV的前提下實現(xiàn)高帶寬堆疊,有利于控制成本、提升良率。未來HBS預計將與手機主控SoC協(xié)同封裝,再整體安裝到主板,實現(xiàn)“小型化+高帶寬+低功耗”的平衡。
目前SK 海力士尚未公布HBS量產(chǎn)時間表,但業(yè)界普遍預期,該技術(shù)有望在未來 2–3 年內(nèi)進入商業(yè)化階段,成為新一代移動端AI存儲的重要形態(tài)之一。
四、端側(cè)堆疊DRAM:SoC合封方案加速
1. 華邦 CUBE:為邊緣SoC量身打造
華邦電子推出的 CUBE(Customized Ultra-Bandwidth Elements)面向的是SoC與DRAM合封場景下的成本、面積和散熱難題。
將 SoC 裸片直接置于 DRAM 裸片上方
通過先進封裝實現(xiàn)高帶寬、緊湊尺寸的組合
無需在SoC側(cè)采用TSV工藝,降低制造復雜度與成本
更適用于低功耗、高帶寬、中低容量的邊緣計算和端側(cè)AI應用
2. 兆易創(chuàng)新:定制化堆疊內(nèi)存方案
兆易創(chuàng)新依托堆疊內(nèi)存技術(shù),為AIPC、手機、端側(cè)智能設備、汽車等場景提供定制化存儲解決方案:
已與部分邏輯芯片客戶實現(xiàn)先導項目落地,樣品發(fā)布并進入驗證
已向產(chǎn)業(yè)伙伴展示在帶寬、功耗、能效等維度的優(yōu)勢
預計明年起,將有更多定制化存儲方案在多類端側(cè)設備中量產(chǎn)
摩根士丹利研報提到,WoW(Wafer-on-Wafer,晶圓堆疊)技術(shù)通過3D封裝實現(xiàn)芯片垂直疊加,可將內(nèi)存帶寬提升約 10 倍、功耗降低約 90%,被視作破解邊緣AI帶寬與能耗瓶頸的關(guān)鍵路徑之一。
報告指出,兆易創(chuàng)新已與長鑫存儲合作:
4 層堆疊技術(shù)已成熟
8 層堆疊方案已納入路線圖
五、存算一體:把計算“搬到存儲旁邊”
為了跳出傳統(tǒng)馮·諾依曼架構(gòu)下“數(shù)據(jù)搬運開銷過大”的困境,越來越多廠商開始在“近存計算”和“存內(nèi)計算”上發(fā)力。
1. NVIDIA × Groq:LPU 近存架構(gòu)
NVIDIA近期與AI芯片公司 Groq 達成技術(shù)許可合作,將采用 Groq 的推理技術(shù)。Groq研發(fā)的 LPU(Language Processing Unit)是典型的近存計算架構(gòu):
采用 14nm 工藝
片上集成約 230MB SRAM
片上內(nèi)存帶寬可達 80TB/s
SRAM 訪問延遲遠低于DRAM,適合高并發(fā)、計算密集型推理任務
2. Axelera、EnCharge AI:多路徑存內(nèi)計算
Axelera AIPU:利用內(nèi)存計算,將數(shù)據(jù)直接常駐主內(nèi)存(RAM),減少磁盤I/O開銷,顯著提升推理吞吐。
EnCharge AI:采用基于電荷存儲器的模擬存內(nèi)計算架構(gòu),不再逐比特處理,而是通過測量存儲平面上的電流來進行矩陣運算,核心是更高精度電容器陣列,實現(xiàn)高能效模擬CIM。
3. d-Matrix:數(shù)字存算一體引擎
d-Matrix 推出的 DIMC(Digital In-Memory Compute)引擎,將算力單元遷移到RAM附近,通過將MAC(乘加)單元與存儲陣列深度融合:
提升計算帶寬與并行性
顯著降低數(shù)據(jù)搬運延遲
降低整體功耗,特別適用于大規(guī)模推理任務
4. 國內(nèi)新勢力:昕原半導體與微納核芯
昕原半導體 ATOM 系列:基于ReRAM(阻變存儲器)的存算一體方案,利用其與先進工藝的兼容性,將數(shù)據(jù)存儲與計算單元深度集成,可在帶寬、性能與能效比上實現(xiàn)數(shù)十倍提升。
微納核芯 3D-CIM 架構(gòu):提出“三維存算一體”,將3D近存計算與存內(nèi)計算結(jié)合,在不依賴最先進工藝節(jié)點的情況下:
將算力密度提升 4 倍以上(同成本下)
功耗降低超過 10 倍
兼顧高性能、低功耗與低成本,有望成為可規(guī)模量產(chǎn)的3D端側(cè)AI芯片路線之一。
六、3D NAND:垂直“長高”與平面“變瘦”
在NAND領域,核心競爭點仍是單位芯片可存儲的比特數(shù)。主要有兩條路徑:
垂直擴展:增加3D NAND的層數(shù)
橫向縮?。簻p小單元尺寸與die面積
鎧俠 BiCS FLASH 與新型存儲
面向大容量、高性能場景(如企業(yè)與數(shù)據(jù)中心SSD),鎧俠計劃在 BiCS FLASH 第10代及之后產(chǎn)品中,繼續(xù)在“更高層數(shù)+橫向收縮”上發(fā)力,提高位密度與容量。
面向性能優(yōu)先應用,將推進 BiCS FLASH 第9代,并引入 CBA 技術(shù),讓現(xiàn)有一代存儲陣列與更高速的CMOS邏輯更緊密結(jié)合。
研發(fā) OCTRAM(氧化物半導體通道晶體管 DRAM):采用氧化物半導體通道,定位未來需要低功耗主存的市場。
推進 XL-FLASH:一種低延遲、高性能閃存,用來填補DRAM與傳統(tǒng)NAND之間的性能鴻溝。第二代支持MLC的XL-FLASH已進入量產(chǎn)階段。
三星第十代 V-NAND
三星最新一代V-NAND已實現(xiàn):
堆疊層數(shù)約 420–430 層
采用 CoP(Cell on Periphery)混合鍵合外圍單元架構(gòu)
接口速度最高可達 5600 MT/s
單 die 密度約 28 Gb/mm2,單 die 容量可達 1Tb
七、超大容量HDD:AI“冷數(shù)據(jù)”的壓艙石
AI工作流是一個從“搜集數(shù)據(jù)—訓練—生成內(nèi)容—存儲與留存—再利用”的閉環(huán),不只是高性能計算和高速內(nèi)存,海量數(shù)據(jù)存儲同樣關(guān)鍵:
在數(shù)據(jù)搜集階段:
網(wǎng)絡SSD提供熱數(shù)據(jù)的快速訪問
網(wǎng)絡HDD承擔大規(guī)模數(shù)據(jù)的冷存儲和長期留存
在模型訓練階段:
HDD以更低TCO的方式承載訓練所需的大量樣本
在生成內(nèi)容與歸檔階段:
HDD用于存儲、保護多份內(nèi)容副本和過程數(shù)據(jù)
為支撐這種“海量但成本敏感”的需求,HDD正向 30TB+ 容量演進,其中關(guān)鍵技術(shù)是 HAMR(熱輔助磁記錄):
單碟面密度已達 3TB+,整機容量 30TB 起步,已對超大規(guī)模客戶批量出貨
Seagate 正在測試 Mozaic 平臺,目標單碟 4TB+、5TB+
相比當前PMR硬盤,Mozaic 3+ 產(chǎn)品:
運行功耗約為 PMR 的 1/4
每TB隱含碳排放降至約 1/10
西部數(shù)據(jù)則通過 ePMR(能量輔助垂直磁記錄)與 UltraSMR(超疊瓦磁記錄)來進一步提升容量、性能與能效,以更好適配云存儲和AI等數(shù)據(jù)密集型場景。
八、UFS 5.0:端側(cè)主存儲繼續(xù)提速
JEDEC即將完成 UFS 5.0 存儲標準,目標是在保持低功耗的前提下,為移動和輕量計算設備提供更高的存儲性能,同時兼容現(xiàn)有 UFS 4.x 硬件生態(tài)。
UFS適合作為嵌入式主存儲,特別適用于:
智能手機、可穿戴設備
汽車邊緣計算系統(tǒng)
游戲主機與各類高性能嵌入式設備
UFS 5.0 的主要特性包括:
順序性能提升至約 10.8GB/s,以更好匹配AI本地推理需求
引入鏈路均衡機制,增強長距離高速信號傳輸?shù)目煽啃?/p>
PHY與內(nèi)存子系統(tǒng)采用獨立供電軌設計,降低噪聲耦合,簡化系統(tǒng)集成
內(nèi)置哈希機制,加強數(shù)據(jù)安全防護
九、PCIe 8.0:系統(tǒng)互聯(lián)的下一站
PCI-SIG 已宣布 PCIe 8.0 規(guī)范的 Version 0.3 通過工作組審查,向會員開放,整體仍按計劃在 2028 年前后定稿發(fā)布。
預計 2025 年 8 月公布正式開發(fā)計劃
將繼續(xù)采用 PAM4 信號調(diào)制,在 PCIe 7.0 基礎上傳輸速率再翻倍:
單通道速率提升至 256 GT/s
x16 配置下,雙向總帶寬可達 1TB/s 量級
這一代PCIe標準,主要面向未來高性能計算、AI訓練/推理集群對超高帶寬、低延遲互聯(lián)的需求,特別是GPU與存儲加速卡之間的高速數(shù)據(jù)交換。
十、LPDDR6:移動與AI端側(cè)的低功耗高帶寬內(nèi)存
JEDEC最新發(fā)布的 LPDDR6 標準(JESD209-6),是面向移動終端和各類AI終端的下一代低功耗內(nèi)存規(guī)格。
關(guān)鍵特性包括:
引入雙子通道架構(gòu),在保持 32 字節(jié)訪問粒度的同時提供更大的操作靈活性
支持更高的工作頻率與帶寬,以滿足AI推理和圖形處理等高負載場景
相比LPDDR5,引入更低電壓的 VDD2 電源,并要求雙路 VDD2 供電,以進一步降低整體功耗
在安全性與可靠性方面增加新特性,強化端側(cè)AI應用中對數(shù)據(jù)安全與長期穩(wěn)定性的要求
整體來看,從HBM4E、HBF、HBS這些“高帶寬高容量”新形態(tài),到3D NAND與超大容量HDD,再到UFS 5.0、LPDDR6以及PCIe 8.0等接口與協(xié)議升級,“存力”正沿著容量、帶寬、能效和架構(gòu)創(chuàng)新多線并進。
在算力和算法不斷演進的背景下,這些存儲技術(shù)的迭代,將決定AI能在多大程度上真正“跑得起來、跑得久、跑得開得廣”。

