2026值得關(guān)注的存儲技術(shù)

2026-1-4 10:04:00

在這輪AI快速發(fā)展浪潮中，算力體系的軟硬件協(xié)同能力被不斷“打磨”：從底層芯片架構(gòu)優(yōu)化，到大模型形態(tài)逐步收斂，再到算力調(diào)度與編排機制持續(xù)升級，整個鏈條的技術(shù)演進，已經(jīng)在很大程度上緩解了算力供給和應用需求之間的錯配問題

在這輪AI快速發(fā)展浪潮中，算力體系的軟硬件協(xié)同能力被不斷“打磨”：從底層芯片架構(gòu)優(yōu)化，到大模型形態(tài)逐步收斂，再到算力調(diào)度與編排機制持續(xù)升級，整個鏈條的技術(shù)演進，已經(jīng)在很大程度上緩解了算力供給和應用需求之間的錯配問題。

當“算力不足”不再是AI落地的首要瓶頸后，“存力”的地位迅速提升，成為決定算力價值能否高效釋放的關(guān)鍵一環(huán)。

存力的核心在于：數(shù)據(jù)能存多少、讀寫有多快、是否足夠安全可靠。無論是大模型訓練，還是端側(cè)與云端的實時推理，對存儲的性能指標、架構(gòu)形態(tài)以及成本控制都提出了新要求。2025年以來，AI從云向端側(cè)延展，AI推理的市場空間甚至超過訓練，圍繞“AI存儲”的新一輪技術(shù)和產(chǎn)品創(chuàng)新正在加速落地。

一、HBM4E與定制化高帶寬存儲

1. 臺積電 C-HBM4E：基礎裸片“邏輯化”

臺積電提出，HBM將在HBM4E時代進入“定制化”階段，即 C-HBM4E。其核心思路，是在HBM的基礎裸片中直接集成內(nèi)存控制器（MC），幫助主芯片節(jié)省大量邏輯面積，并提升系統(tǒng)能效。

臺積電將提供基于 N3P 先進制程的基礎裸片解決方案

相比HBM3E時代的基礎裸片，能效可提升約 2 倍

C-HBM4E 的工作電壓 Vdd 僅約 0.75V，比HBM4進一步降低，繼續(xù)壓縮功耗

此前，SK 海力士已與臺積電簽署HBM4合作諒解備忘錄，由臺積電為其生產(chǎn)HBM4基礎裸片，這也意味著HBM4開始普遍引入外部先進邏輯工藝，而不再全部依賴存儲廠自身制程。

SK 海力士公開展示的HBM4樣品采用 12 層堆疊結(jié)構(gòu)，借助臺積電 N3 工藝的基底裸片，實現(xiàn)了：

單顆容量 36GB

帶寬 2TB/s

相比HBM3E，傳輸速度提升超 60%

美光在下一代 HBM4E 產(chǎn)品規(guī)劃中，同樣選擇與臺積電合作制造基底邏輯芯片，覆蓋標準產(chǎn)品和定制化版本。美光預計 HBM4E 將在 2027 年正式推出；三星則計劃最早在明年上半年完成 HBM4E 的研發(fā)。

二、HBF：面向推理的大帶寬閃存

SanDisk 閃迪在今年2月展示了面向AI的新型高帶寬閃存（HBF，High Bandwidth Flash），本質(zhì)上是“把HBM的堆疊思路搬到NAND上”。

采用類似HBM的堆疊結(jié)構(gòu)，通過 TSV 將多顆高性能 3D NAND 核心芯片垂直堆疊

結(jié)合自家 BiCS 3D NAND 與 CBA（CMOS Bonded to Array）技術(shù)，將存儲陣列鍵合在I/O邏輯芯片之上

單堆棧采用 16 顆核心芯片，容量最高可達 512GB

8 顆HBF堆疊可實現(xiàn) 4TB 容量

HBF在帶寬上可以接近HBM，但由于底層仍是NAND，延遲明顯高于DRAM。因此它更適合讀取密集型的AI推理任務，而不是極度敏感的實時場景。

根據(jù)介紹，單顆HBF有望容納一個完整的 64B 級別大模型，具備在手機端本地運行大模型、以及在自動駕駛、AI玩具、IoT等端側(cè)或邊緣設備場景中提供低功耗、高容量AI存儲的潛力。

來自韓國科學技術(shù)高等研究院（KAIST）的 Joungho Kim 教授（業(yè)內(nèi)稱“HBM之父”）提出了“HBM+HBF”的分層思路：

以前端 100GB HBM 作為緩存層

后端掛接約 1TB 的 HBF

這樣在不犧牲整體性能的前提下，放大成本和容量優(yōu)勢。

時間表方面：

SanDisk 預計在 2026 年下半年交付第一批HBF樣品

基于HBF的AI推理設備樣機預計在 2027 年初問世

SK 海力士推出“AIN系列”新品線，其中已包含HBF產(chǎn)品

三星也啟動自有HBF方案的概念設計

Kioxia（鎧俠）在今年8月展示了一款 5TB 級別的超高速HBF原型

三、HBS：DRAM+NAND 立體疊堆的新形態(tài)

SK 海力士還在研發(fā)另一條高帶寬存儲技術(shù)路線——HBS（High Bandwidth Storage），核心是將DRAM和NAND以更緊湊的三維方式整合。

關(guān)鍵技術(shù)是 VFO（Vertical Feed-Out，垂直導線扇出）封裝工藝：

采用銅線而非常規(guī)銅柱，通過階梯式堆疊DRAM，并灌注環(huán)氧樹脂固定

再通過垂直柱狀導線和重新分布層（RDL）將多層芯片連接至基板

最多可實現(xiàn) 16 層 DRAM 與 NAND 芯片的垂直堆疊

VFO 將 FOWLP（晶圓級扇出封裝）與多層DRAM堆疊結(jié)合，顯著縮短層間連線：

信號線路長度縮短至傳統(tǒng)方案的 1/4 以下

整體能效提升約 4.9%

封裝厚度減少約 27%，散熱略有增加（約 1.4%）

與HBM依賴的TSV工藝不同，HBS可在不使用TSV的前提下實現(xiàn)高帶寬堆疊，有利于控制成本、提升良率。未來HBS預計將與手機主控SoC協(xié)同封裝，再整體安裝到主板，實現(xiàn)“小型化+高帶寬+低功耗”的平衡。

目前SK 海力士尚未公布HBS量產(chǎn)時間表，但業(yè)界普遍預期，該技術(shù)有望在未來 2–3 年內(nèi)進入商業(yè)化階段，成為新一代移動端AI存儲的重要形態(tài)之一。

四、端側(cè)堆疊DRAM：SoC合封方案加速

1. 華邦 CUBE：為邊緣SoC量身打造

華邦電子推出的 CUBE（Customized Ultra-Bandwidth Elements）面向的是SoC與DRAM合封場景下的成本、面積和散熱難題。

將 SoC 裸片直接置于 DRAM 裸片上方

通過先進封裝實現(xiàn)高帶寬、緊湊尺寸的組合

無需在SoC側(cè)采用TSV工藝，降低制造復雜度與成本

更適用于低功耗、高帶寬、中低容量的邊緣計算和端側(cè)AI應用

2. 兆易創(chuàng)新：定制化堆疊內(nèi)存方案

兆易創(chuàng)新依托堆疊內(nèi)存技術(shù)，為AIPC、手機、端側(cè)智能設備、汽車等場景提供定制化存儲解決方案：

已與部分邏輯芯片客戶實現(xiàn)先導項目落地，樣品發(fā)布并進入驗證

已向產(chǎn)業(yè)伙伴展示在帶寬、功耗、能效等維度的優(yōu)勢

預計明年起，將有更多定制化存儲方案在多類端側(cè)設備中量產(chǎn)

摩根士丹利研報提到，WoW（Wafer-on-Wafer，晶圓堆疊）技術(shù)通過3D封裝實現(xiàn)芯片垂直疊加，可將內(nèi)存帶寬提升約 10 倍、功耗降低約 90%，被視作破解邊緣AI帶寬與能耗瓶頸的關(guān)鍵路徑之一。

報告指出，兆易創(chuàng)新已與長鑫存儲合作：

4 層堆疊技術(shù)已成熟

8 層堆疊方案已納入路線圖

五、存算一體：把計算“搬到存儲旁邊”

為了跳出傳統(tǒng)馮·諾依曼架構(gòu)下“數(shù)據(jù)搬運開銷過大”的困境，越來越多廠商開始在“近存計算”和“存內(nèi)計算”上發(fā)力。

1. NVIDIA × Groq：LPU 近存架構(gòu)

NVIDIA近期與AI芯片公司 Groq 達成技術(shù)許可合作，將采用 Groq 的推理技術(shù)。Groq研發(fā)的 LPU（Language Processing Unit）是典型的近存計算架構(gòu)：

采用 14nm 工藝

片上集成約 230MB SRAM

片上內(nèi)存帶寬可達 80TB/s

SRAM 訪問延遲遠低于DRAM，適合高并發(fā)、計算密集型推理任務

2. Axelera、EnCharge AI：多路徑存內(nèi)計算

Axelera AIPU：利用內(nèi)存計算，將數(shù)據(jù)直接常駐主內(nèi)存（RAM），減少磁盤I/O開銷，顯著提升推理吞吐。

EnCharge AI：采用基于電荷存儲器的模擬存內(nèi)計算架構(gòu)，不再逐比特處理，而是通過測量存儲平面上的電流來進行矩陣運算，核心是更高精度電容器陣列，實現(xiàn)高能效模擬CIM。

3. d-Matrix：數(shù)字存算一體引擎

d-Matrix 推出的 DIMC（Digital In-Memory Compute）引擎，將算力單元遷移到RAM附近，通過將MAC（乘加）單元與存儲陣列深度融合：

提升計算帶寬與并行性

顯著降低數(shù)據(jù)搬運延遲

降低整體功耗，特別適用于大規(guī)模推理任務

4. 國內(nèi)新勢力：昕原半導體與微納核芯

昕原半導體 ATOM 系列：基于ReRAM（阻變存儲器）的存算一體方案，利用其與先進工藝的兼容性，將數(shù)據(jù)存儲與計算單元深度集成，可在帶寬、性能與能效比上實現(xiàn)數(shù)十倍提升。

微納核芯 3D-CIM 架構(gòu)：提出“三維存算一體”，將3D近存計算與存內(nèi)計算結(jié)合，在不依賴最先進工藝節(jié)點的情況下：

將算力密度提升 4 倍以上（同成本下）

功耗降低超過 10 倍

兼顧高性能、低功耗與低成本，有望成為可規(guī)模量產(chǎn)的3D端側(cè)AI芯片路線之一。

六、3D NAND：垂直“長高”與平面“變瘦”

在NAND領域，核心競爭點仍是單位芯片可存儲的比特數(shù)。主要有兩條路徑：

垂直擴展：增加3D NAND的層數(shù)

橫向縮?。簻p小單元尺寸與die面積

鎧俠 BiCS FLASH 與新型存儲

面向大容量、高性能場景（如企業(yè)與數(shù)據(jù)中心SSD），鎧俠計劃在 BiCS FLASH 第10代及之后產(chǎn)品中，繼續(xù)在“更高層數(shù)+橫向收縮”上發(fā)力，提高位密度與容量。

面向性能優(yōu)先應用，將推進 BiCS FLASH 第9代，并引入 CBA 技術(shù)，讓現(xiàn)有一代存儲陣列與更高速的CMOS邏輯更緊密結(jié)合。

研發(fā) OCTRAM（氧化物半導體通道晶體管 DRAM）：采用氧化物半導體通道，定位未來需要低功耗主存的市場。

推進 XL-FLASH：一種低延遲、高性能閃存，用來填補DRAM與傳統(tǒng)NAND之間的性能鴻溝。第二代支持MLC的XL-FLASH已進入量產(chǎn)階段。

三星第十代 V-NAND

三星最新一代V-NAND已實現(xiàn)：

堆疊層數(shù)約 420–430 層

采用 CoP（Cell on Periphery）混合鍵合外圍單元架構(gòu)

接口速度最高可達 5600 MT/s

單 die 密度約 28 Gb/mm2，單 die 容量可達 1Tb

七、超大容量HDD：AI“冷數(shù)據(jù)”的壓艙石

AI工作流是一個從“搜集數(shù)據(jù)—訓練—生成內(nèi)容—存儲與留存—再利用”的閉環(huán)，不只是高性能計算和高速內(nèi)存，海量數(shù)據(jù)存儲同樣關(guān)鍵：

在數(shù)據(jù)搜集階段：

網(wǎng)絡SSD提供熱數(shù)據(jù)的快速訪問

網(wǎng)絡HDD承擔大規(guī)模數(shù)據(jù)的冷存儲和長期留存

在模型訓練階段：

HDD以更低TCO的方式承載訓練所需的大量樣本

在生成內(nèi)容與歸檔階段：

HDD用于存儲、保護多份內(nèi)容副本和過程數(shù)據(jù)

為支撐這種“海量但成本敏感”的需求，HDD正向 30TB+ 容量演進，其中關(guān)鍵技術(shù)是 HAMR（熱輔助磁記錄）：

單碟面密度已達 3TB+，整機容量 30TB 起步，已對超大規(guī)模客戶批量出貨

Seagate 正在測試 Mozaic 平臺，目標單碟 4TB+、5TB+

相比當前PMR硬盤，Mozaic 3+ 產(chǎn)品：

運行功耗約為 PMR 的 1/4

每TB隱含碳排放降至約 1/10

西部數(shù)據(jù)則通過 ePMR（能量輔助垂直磁記錄）與 UltraSMR（超疊瓦磁記錄）來進一步提升容量、性能與能效，以更好適配云存儲和AI等數(shù)據(jù)密集型場景。

八、UFS 5.0：端側(cè)主存儲繼續(xù)提速

JEDEC即將完成 UFS 5.0 存儲標準，目標是在保持低功耗的前提下，為移動和輕量計算設備提供更高的存儲性能，同時兼容現(xiàn)有 UFS 4.x 硬件生態(tài)。

UFS適合作為嵌入式主存儲，特別適用于：

智能手機、可穿戴設備

汽車邊緣計算系統(tǒng)

游戲主機與各類高性能嵌入式設備

UFS 5.0 的主要特性包括：

順序性能提升至約 10.8GB/s，以更好匹配AI本地推理需求

引入鏈路均衡機制，增強長距離高速信號傳輸?shù)目煽啃?/p>

PHY與內(nèi)存子系統(tǒng)采用獨立供電軌設計，降低噪聲耦合，簡化系統(tǒng)集成

內(nèi)置哈希機制，加強數(shù)據(jù)安全防護

九、PCIe 8.0：系統(tǒng)互聯(lián)的下一站

PCI-SIG 已宣布 PCIe 8.0 規(guī)范的 Version 0.3 通過工作組審查，向會員開放，整體仍按計劃在 2028 年前后定稿發(fā)布。

預計 2025 年 8 月公布正式開發(fā)計劃

將繼續(xù)采用 PAM4 信號調(diào)制，在 PCIe 7.0 基礎上傳輸速率再翻倍：

單通道速率提升至 256 GT/s

x16 配置下，雙向總帶寬可達 1TB/s 量級

這一代PCIe標準，主要面向未來高性能計算、AI訓練/推理集群對超高帶寬、低延遲互聯(lián)的需求，特別是GPU與存儲加速卡之間的高速數(shù)據(jù)交換。

十、LPDDR6：移動與AI端側(cè)的低功耗高帶寬內(nèi)存

JEDEC最新發(fā)布的 LPDDR6 標準（JESD209-6），是面向移動終端和各類AI終端的下一代低功耗內(nèi)存規(guī)格。

關(guān)鍵特性包括：

引入雙子通道架構(gòu)，在保持 32 字節(jié)訪問粒度的同時提供更大的操作靈活性

支持更高的工作頻率與帶寬，以滿足AI推理和圖形處理等高負載場景

相比LPDDR5，引入更低電壓的 VDD2 電源，并要求雙路 VDD2 供電，以進一步降低整體功耗

在安全性與可靠性方面增加新特性，強化端側(cè)AI應用中對數(shù)據(jù)安全與長期穩(wěn)定性的要求

整體來看，從HBM4E、HBF、HBS這些“高帶寬高容量”新形態(tài)，到3D NAND與超大容量HDD，再到UFS 5.0、LPDDR6以及PCIe 8.0等接口與協(xié)議升級，“存力”正沿著容量、帶寬、能效和架構(gòu)創(chuàng)新多線并進。

在算力和算法不斷演進的背景下，這些存儲技術(shù)的迭代，將決定AI能在多大程度上真正“跑得起來、跑得久、跑得開得廣”。

2026值得關(guān)注的存儲技術(shù)

企業(yè)新聞

行業(yè)新聞