
英偉達 CEO 黃仁勛身穿標志性黑色皮衣,出現(xiàn)在 CES 展會前的英偉達特別演講現(xiàn)場。作為 2026 年的首場公開活動,這次演講信息量極大:不僅公布了 Blackwell、Rubin 兩代架構(gòu)芯片的最新進展,還第一次系統(tǒng)性展示了 Rubin 平臺的六款核心芯片及其詳細性能參數(shù)。
除了硬件升級,黃仁勛還把“物理 AI”推到了臺前,宣布面向自動駕駛和機器人分別開源一款 VLA(視覺-語言-行動)模型,加速自動駕駛、機器人等物理世界應(yīng)用的落地。
Vera Rubin 平臺量產(chǎn)在即:推理性能跳躍 5 倍
作為英偉達新一代 GPU 架構(gòu),Rubin 的量產(chǎn)進展一直備受關(guān)注。早在去年 10 月的秋季 GTC 大會上,英偉達就首次亮相了 Vera Rubin 超級計算平臺。與其說是單獨升級一顆 GPU,不如說是發(fā)布了一整套“全棧協(xié)同”基礎(chǔ)設(shè)施:
Vera CPU、Rubin GPU、NVLink 6 交換機、ConnectX-9 SuperNIC、BlueField-4 DPU 與 Spectrum-6 以太網(wǎng)交換機六大核心芯片從計算、網(wǎng)絡(luò)到存儲與安全進行了系統(tǒng)性重構(gòu)。
Vera CPU:為超大規(guī)模 AI 場景定制
Vera CPU 基于定制 Arm v9.2 架構(gòu)(代號 Olympus),面向大規(guī)模 AI 工作負載設(shè)計:
88 個高性能定制核心,支持 NVIDIA Spatial Multi-Threading,可同時運行 176 線程
搭載 162MB L3 緩存,在數(shù)據(jù)處理、壓縮和 CI/CD 等任務(wù)上,相比 Grace CPU 性能提升約 2 倍
采用 3NP 先進制程,集成約 2270 億晶體管
支持最高 1.5TB LPDDR5X 內(nèi)存,通過 SOCAMM 技術(shù)提供約 1.2TB/s 內(nèi)存帶寬,是上一代 Grace 平臺的 3 倍
在異構(gòu)協(xié)同方面:
內(nèi)建 1.8TB/s NVLink-C2C 一致性互聯(lián)通道,可與 Rubin GPU 低延遲共享數(shù)據(jù)
單顆 Vera CPU 最多可高效驅(qū)動 4 顆 Rubin GPU
內(nèi)置機架級機密計算能力,對多租戶 AI 云服務(wù)提供硬件級安全隔離
用于推理任務(wù)調(diào)度、GPU 數(shù)據(jù)供給和多節(jié)點協(xié)同管理等場景,整體能效比上一代提升約 40%,推理響應(yīng)加快約 50%
Rubin GPU:AI 算力核心的全面升級
Rubin GPU 是整個平臺的算力中心:
集成約 3360 億晶體管,采用雙 Reticle 大芯片設(shè)計
配置 224 個 SM 單元,第六代 Tensor Core,第三代 Transformer 引擎
在 NVFP4 精度下推理算力可達 50 PFLOPS,是上一代 Blackwell 的約 5 倍
FP8 精度訓(xùn)練算力達到 17.5 PFLOPS,相比前代提升約 2.5 倍,可輕松應(yīng)對萬億參數(shù)模型與 MoE 架構(gòu)訓(xùn)練和推理需求
顯存與帶寬方面:
標配 288GB HBM4 顯存
Ultra 版本最高支持 1025GB HBM4E,顯存帶寬可達約 22TB/s,相比 Blackwell 的約 8TB/s 提升超過 1.7 倍
搭配硬件自適應(yīng)壓縮,可在不顯著犧牲性能的前提下減小約 30% 顯存占用
互聯(lián)與能耗方面:
單 GPU NVLink 帶寬約 3.6TB/s,可實現(xiàn)全對全拓撲互聯(lián),適合大模型并行訓(xùn)練
標準版 TDP 約 1800W,Ultra 版約 3600W
支持 45℃ 溫水液冷方案,散熱效率提升約 60%,單位算力功耗下降約 40%,折算下來每 PFLOPS 能耗約 42W,更利于大規(guī)模 AI 集群部署
NVLink 6 交換機:機架內(nèi) GPU 高速互聯(lián)
NVLink 6 交換機是 Rubin 平臺機架內(nèi)部 GPU 通信的樞紐:
單 GPU 雙向互聯(lián)帶寬可達 3.6TB/s,相比上一代翻倍
帶寬約為 PCIe Gen 6 的 14 倍以上
在 Vera Rubin NVL72 機架配置中,可實現(xiàn) 72 顆 GPU 全對全無阻塞互聯(lián),總帶寬約 260TB/s,較前代機架提升逾 70%
ConnectX-9 SuperNIC:智能網(wǎng)卡與雙模網(wǎng)絡(luò)
ConnectX-9 SuperNIC 是 Rubin 平臺的智能網(wǎng)卡:
支持 InfiniBand 和以太網(wǎng)雙模
單端口速率 800Gb/s,單卡總吞吐最高可達 1.6Tb/s,相比 ConnectX-8 提升約一倍
兼容 InfiniBand HDR200 與以太網(wǎng) 400G
支持 RoCE v3,RDMA 延遲壓縮至約 0.8μs,較前一代降低約 20%
芯片與功能:
集成約 230 億晶體管
內(nèi)置可編程 IO、網(wǎng)絡(luò)內(nèi)壓縮、基于遙測的擁塞控制與線速 AES-256 加密
新增 AI 任務(wù)優(yōu)先級調(diào)度,擁塞控制效率提升約 40%
與 Spectrum-X 以太網(wǎng)和 Quantum-X800 網(wǎng)絡(luò)平臺適配良好
每 Gb/s 功耗約 0.3W,能效提升約 50%,MTBF(平均無故障時間)約 200 萬小時,適合 AI 工廠與云平臺的超大規(guī)模部署
BlueField-4 DPU:安全與存儲中樞
BlueField-4 DPU 集成計算、網(wǎng)絡(luò)和存儲三大職能:
內(nèi)嵌 64 核 Grace CPU(Neoverse V2 架構(gòu))
FP8 算力約 8 TFLOPS,相比 BlueField-3 提升約 5 倍
網(wǎng)絡(luò)能力提升約 2 倍,支持 800Gb/s 端口速率,兼容 InfiniBand 與以太網(wǎng)
網(wǎng)絡(luò)延遲壓縮到約 1.5μs,比上一代降低約 30%
可卸載約 90% 的存儲與網(wǎng)絡(luò)負載,顯著減輕主機 CPU 壓力
存儲與內(nèi)存:
支持最高 1.5TB LPDDR5X,內(nèi)存帶寬約 250GB/s,相比前代提升逾兩倍
兼容 NVMe-oF 與 SATA,存儲 IOPS 提升約 3 倍
Spectrum-6 以太網(wǎng)交換機:機架間超級互聯(lián)
Spectrum-6 是 Rubin 平臺跨機架網(wǎng)絡(luò)的核心:
采用 CPO(共封裝光學(xué))技術(shù),支持 200G 硅光模塊
單芯片交換容量約 102.4Tb/s,相比前代翻倍
端口密度顯著提高:可提供 128×800Gb/s 或 512×200Gb/s 端口,基本實現(xiàn)端口密度翻倍
在 NVL72 配置下:
機架間互聯(lián)帶寬可達約 260TB/s
端到端延遲約 2.5μs,比前代縮短約 30%
有效帶寬利用率可達 95%
集成 AI 流量調(diào)度與動態(tài)負載均衡,可將 AI 任務(wù)網(wǎng)絡(luò)抖動減少約 40%,應(yīng)用整體運行效率最多提升數(shù)倍
六芯片協(xié)同:從“堆硬件”到全棧系統(tǒng)設(shè)計
Vera Rubin 平臺的優(yōu)勢不只體現(xiàn)在單顆芯片性能,而在于六款芯片的整體協(xié)同。通過在計算、網(wǎng)絡(luò)、存儲、安全等層面一體化設(shè)計,英偉達聲稱:
AI 推理的每 Token 成本可下降約 10 倍
訓(xùn)練混合專家(MoE)模型所需的 GPU 數(shù)量最多可減少約 75%
這類全棧優(yōu)化,主要面向兩類關(guān)鍵場景:
一類是代理式 AI 的長時推理與工具調(diào)用,另一類是物理 AI 的大規(guī)模仿真與在線推理。
黃仁勛特別強調(diào),Vera Rubin 的目標是應(yīng)對 AI 計算需求“幾乎以每年 10 倍速度增長”的現(xiàn)實。他直言,傳統(tǒng)意義上的摩爾定律已經(jīng)難以跟上模型體量擴張,只有通過從芯片到網(wǎng)絡(luò)、再到系統(tǒng)軟件的整體重構(gòu),才能讓“讓 AI 多算一會兒”在成本上仍然可以接受。
目前,這六款 Vera Rubin 平臺核心芯片都已從代工伙伴處回片并進入測試階段。按計劃,平臺產(chǎn)品會在 2026 年下半年率先在 Azure、CoreWeave、AWS 等云服務(wù)中上線部署。
AI 重心遷移:從“生成式”到“推理 + 物理 AI”
在這場演講中,黃仁勛給 AI 行業(yè)的轉(zhuǎn)向做了一個清晰劃分:
從“生成式 AI”到“代理式 AI(Agentic AI)”:模型不僅生成文本或圖片,而是具備自主推理能力,能做規(guī)劃、分解任務(wù),并調(diào)用外部工具和服務(wù)。
從“數(shù)字 AI”走向“物理 AI”:讓 AI 理解真實世界的物理規(guī)律(例如重力、慣性),并能在現(xiàn)實環(huán)境中執(zhí)行任務(wù)。
他提到,英偉達在物理 AI 方向已經(jīng)默默布局了 8 年,此次則集中釋放了一批相關(guān)技術(shù)和模型。
面向自動駕駛的 Alpamayo:開源 VLA 推理模型
在自動駕駛領(lǐng)域,英偉達發(fā)布了名為 Alpamayo 的開源 VLA 推理模型,這是號稱“全球首個開源視覺-語言-行動自動駕駛推理模型”。
其特點包括:
引入鏈式推理(Chain-of-Thought)能力,不再只是被動響應(yīng)傳感器數(shù)據(jù)
能在復(fù)雜路況中理解因果關(guān)系,例如緊急變道、避險時機等決策邏輯
支持對自身決策過程做出解釋,兼顧可解釋性與安全性
配套的還有:
AlpaSim 高保真仿真框架,用于大規(guī)模虛擬路況與邊緣情形模擬
約 1700 小時的開源駕駛數(shù)據(jù)集,為訓(xùn)練與驗證提供閉環(huán)數(shù)據(jù)支撐
黃仁勛同時公布,首款采用英偉達全棧自動駕駛方案的梅賽德斯-奔馳 CLA 車型,將在 2026 年一季度于美國上路,這被視為“推理型自動駕駛 AI”真正進入消費場景的標志性事件。
面向多領(lǐng)域的 AI 家族:Nemotron、Cosmos、Clara
除了自動駕駛,英偉達在此次演講中還提到一系列針對不同場景的模型:
Nemotron:主要面向邏輯推理與復(fù)雜任務(wù)執(zhí)行的 Agent 模型,可用于多步驟規(guī)劃和工具鏈編排。
Cosmos:聚焦物理規(guī)律和環(huán)境交互的“物理 AI”模型,使系統(tǒng)更好地理解真實世界的動力學(xué)與接觸行為。
Clara:面向生物醫(yī)藥研發(fā)與醫(yī)療影像分析的模型與工具鏈,為藥物研發(fā)和臨床應(yīng)用提供 AI 算法支撐。
機器人:物理 AI 的最大“落地場”
對物理 AI 而言,英偉達認為機器人將是最大的應(yīng)用載體。為此,本次演講重點發(fā)布了兩塊技術(shù)基石:
GR00T N1:人形機器人通用 VLA 基礎(chǔ)模型
GR00T N1 面向人形機器人,定位是通用基礎(chǔ)模型:
具備 VLA 能力,既看得懂視覺,又能理解語言并輸出行動指令
支持全身控制與多步驟協(xié)作,而不僅限于單一機械臂動作
通過模仿學(xué)習(xí)和強化學(xué)習(xí),掌握抓取、導(dǎo)航等復(fù)雜技能,并遷移到不同環(huán)境
Newton 物理引擎:超實時仿真與觸覺訓(xùn)練
Newton 是面向機器人訓(xùn)練的物理引擎,由英偉達聯(lián)合 DeepMind、迪士尼研究院等開發(fā):
支持剛體、軟體等多種物理對象模擬
融入觸覺反饋仿真,用于訓(xùn)練機器人手部精細操作
可以“超實時”生成大規(guī)模合成數(shù)據(jù),緩解真實機器人數(shù)據(jù)昂貴且稀缺的問題
配合 Omniverse 仿真平臺和 Cosmos 物理模型,開發(fā)者可以在虛擬環(huán)境中先完成機器人的感知、決策與控制訓(xùn)練,再遷移到真實工廠、家庭等場景。
黃仁勛用“機器人的 ChatGPT 時刻已至”來形容這一階段:意味著通用機器人有望像對話大模型那樣,形成通用平臺能力,再通過微調(diào)適配不同行業(yè)。
開放生態(tài)與中國模型:DeepSeek R1 的示范效應(yīng)
在談到生態(tài)時,黃仁勛多次強調(diào)“開放”與“開源”的重要性,認為開源模型是推動 AI 普及、降低門檻的關(guān)鍵。
他特別點名了中國開源模型 DeepSeek R1 的表現(xiàn),認為這讓行業(yè)看到:開放協(xié)作能夠激活全球創(chuàng)新力量。
在他看來,目前開源模型整體上比頂尖閉源模型大約滯后半年的水平,但差距正在明顯縮小。這也解釋了英偉達在本次活動中同時開源多款 VLA 與物理 AI 模型的動機——希望通過開放模型來推動上下游快速迭代。
對未來五年的三點判斷:算力結(jié)構(gòu)、推理能力與機器人產(chǎn)業(yè)
在演講結(jié)尾,黃仁勛對 未來五年 AI 行業(yè)給出了三點預(yù)判:
從編程軟件到“訓(xùn)練軟件”時代
傳統(tǒng)意義上由 CPU 主導(dǎo)的通用計算,將持續(xù)向 GPU 加速計算遷移。
價值約 10 萬億美元的全球傳統(tǒng)算力基礎(chǔ)設(shè)施,將在 AI 的驅(qū)動下全面“現(xiàn)代化改造”。
推理算力與上下文管理成為新戰(zhàn)場
隨著 AI 從“一問一答”的工具,轉(zhuǎn)為“長期共事”的智能體,企業(yè)之間的競爭將集中在推理階段的算力以及長上下文管理能力上。
像 Vera Rubin 這樣從芯片到網(wǎng)絡(luò)再到系統(tǒng)軟件的一體化平臺,有望成為未來大型企業(yè)和云服務(wù)商的標配。
機器人成為比云更大的產(chǎn)業(yè)
到 2030 年,全球勞動力缺口預(yù)計將達到約 5000 萬。
人形機器人與工業(yè)機器人的需求有望集中爆發(fā),整體市場規(guī)??赡艹^云計算本身。
物理 AI 與高精度仿真技術(shù),被視為這一波機器人浪潮的核心基礎(chǔ)。

