國產(chǎn)GPGPU集體爆發(fā)！沐曦登陸科創(chuàng)板，龍芯也宣布了

2025-12-18 9:20:00

國產(chǎn) GPGPU 全面提速：從龍芯“上車”到沐曦、壁仞資本化加速

國產(chǎn)GPGPU集體爆發(fā)！沐曦登陸科創(chuàng)板，龍芯也宣布了

國產(chǎn) GPGPU 全面提速：從龍芯“上車”到沐曦、壁仞資本化加速

通用圖形處理器（GPGPU）作為兼具圖形渲染與并行通用計算能力的關(guān)鍵芯片，已經(jīng)成為 AI、云計算和大數(shù)據(jù)分析等高性能算力場景中不可或缺的基礎(chǔ)設(shè)施。長期以來，英偉達、AMD 幾乎牢牢占據(jù)全球 GPGPU 市場主導(dǎo)地位。但在國內(nèi)自主可控需求快速上升以及產(chǎn)業(yè)政策持續(xù)加碼的大背景下，一批本土 GPGPU 廠商正加速入場、分化布局，逐步搭建起多元技術(shù)路線和國產(chǎn)生態(tài)。

近期，龍芯中科在投資者交流中透露，其首款 GPGPU 產(chǎn)品 9A1000 已完成流片并成功點亮，被業(yè)內(nèi)視作“中國第一款純國產(chǎn) GPGPU”的代表性進展。

一、從“端側(cè)”切入：龍芯中科走出的 CPU+GPGPU 協(xié)同之路

廣義上的 GPGPU，是指將 GPU 的大規(guī)模并行計算能力用于傳統(tǒng)由 CPU 負責的通用計算任務(wù)，可在計算密集型和高吞吐場景中顯著提升效率。相較專用 ASIC，通用 GPU 在算法快速迭代、模型頻繁更新的階段具備更好的靈活性和適應(yīng)性，也因此被普遍認為仍將是未來 AI 芯片的一條主流技術(shù)路徑。

龍芯中科本身是國產(chǎn) CPU 的重要玩家，近年來則有意識地將產(chǎn)品線向 GPGPU 延展。其 GPGPU 技術(shù)路線特點在于：將圖形渲染與 AI 加速能力融合于同一計算架構(gòu)，既兼顧傳統(tǒng)圖形顯示需求，又可承擔一定的通用計算與推理加速任務(wù)。具體節(jié)奏上，龍芯先從“端側(cè)推理”場景起步，以終端、行業(yè)應(yīng)用為主，再逐步往更高算力平臺演進。

1. 9A1000：入門級獨顯，主打端側(cè) AI 與行業(yè)應(yīng)用

2025 年，龍芯首款獨立 GPGPU 芯片 9A1000 成功流片，標志著其正式進入通用 GPU 市場。該產(chǎn)品定位于入門級獨顯，重點面向終端和邊緣設(shè)備等場景，例如無人系統(tǒng)、專用裝備等。

核心指標大致如下（部分為對標信息）：

圖形性能大致可對標 AMD RX550

支持 OpenGL 4.0、OpenCL 3.0 等主流圖形與計算標準

內(nèi)置 NPU，AI 推理算力約 40 TOPS，其中 INT8 算力 32 TOPS

像素填充率約 16 GPixel/s，紋理填充率約 32 GTexel/s

與集成在 2K3000 SoC 中的第二代 GPGPU 核心 LG200 相比，9A1000 在整體性能上提升超過 5 倍。

更關(guān)鍵的一點在于系統(tǒng)協(xié)同：9A1000 可與龍芯自家 CPU 深度耦合，形成“CPU+GPGPU”的一體化方案，即市場常說的“龍芯全家桶”。在信創(chuàng)、工業(yè)控制、教育信息化等對性價比和國產(chǎn)化要求都較高的場景中，這種組合有望提供一套相對完整的通用計算+圖形/AI 加速解決方案。公司方面也提到，正在爭取開發(fā) 9A1000 的 Windows 驅(qū)動，以便未來能在 Windows 生態(tài)中直接搭配使用。

2. 產(chǎn)品向上迭代：9A2000 與第三代 GPGPU

按照龍芯公布的規(guī)劃：

第二代圖形處理器核心 LG200 已在新一代 SoC 2K3000 中完成流片與硅驗證，并已展開軟硬件配套開發(fā)；

后續(xù)的 9A2000 將作為更高性能 GPGPU 型號推出：

圖形性能目標約為 9A1000 的 4 倍

AI 推理性能目標約為 9A1000 的 8 倍

在 2025 年半年報中，龍芯還披露，第三代 GPGPU（結(jié)構(gòu)升級）研發(fā)項目正在推進，將基于新一代架構(gòu)推出面向云端與邊緣 AI 應(yīng)用、桌面與服務(wù)器圖形場景的 GPGPU 產(chǎn)品。

3. 軟件生態(tài)：多 OS 支持與 AI 推理模型適配

在軟件堆棧方面，龍芯基于 2K3000 完成了 LG200 的圖形驅(qū)動及算力軟件棧開發(fā)，覆蓋：

Linux

開源鴻蒙

嵌入式操作系統(tǒng)

在 AI 應(yīng)用層面，已能夠無縫支撐如 YOLO 目標檢測、ResNet 圖像識別等主流推理模型，為端側(cè)和行業(yè)應(yīng)用落地打基礎(chǔ)。

二、第一梯隊成型：沐曦、壁仞領(lǐng)銜，多路線沖刺高性能 GPGPU

除了龍芯這一路徑外，國內(nèi) GPGPU 陣營大致已經(jīng)形成了“多極并進”的格局：

以沐曦、壁仞科技為代表，切入高性能云端、智算中心市場；

以天數(shù)智芯、曦望 Sunrise 等為代表，深耕特定細分應(yīng)用或在軟件棧等層面形成差異化能力。

其中，近期沐曦登陸科創(chuàng)板、壁仞沖刺港股上市，也被視作國產(chǎn) GPGPU 企業(yè)邁入“資本化加速”階段的重要信號。

1. 沐曦股份：科創(chuàng)板“GPU 第一股”，三年營收放大 40 倍

2024 年 12 月 17 日，沐曦股份正式在科創(chuàng)板上市，被市場稱為“GPU 第一股”。公司采用“自主通用 GPU + 兼容 CUDA 生態(tài)”的技術(shù)路線，目前主要產(chǎn)品線包括：

訓(xùn)推一體 GPU：曦云 C 系列

智算推理 GPU：曦思 N100 系列

圖形渲染 GPU：曦彩 G100 系列

其中，曦云 C 系列的訓(xùn)推一體 GPU 板卡在 2024 年營收中占比接近七成（約 68.99%），已經(jīng)成為業(yè)務(wù)的核心支柱。

沐曦是國內(nèi)少數(shù)從底層架構(gòu)、GPU IP，到高性能芯片和基礎(chǔ)系統(tǒng)軟件均具備系統(tǒng)性自研能力的企業(yè)之一。截至 2025 年，公司通用 GPU 累計銷量已超過 2.5 萬顆，在手訂單約 14.3 億元，2025 年前三季度營收達到 12.36 億元，同比增速超過 450%。從 2022 年到 2024 年，營收復(fù)合增長率超過 4000%，商業(yè)化落地節(jié)奏在業(yè)內(nèi)相對靠前。

此次 IPO 計劃募資約 39.04 億元，其中約 24.5 億元擬投入“新型高性能通用 GPU 研發(fā)及產(chǎn)業(yè)化項目”，核心是兩款后續(xù)高端產(chǎn)品：

第二代高性能通用 GPU：代號 C600

第三代高性能通用 GPU：代號 C700

兩者基于國產(chǎn)先進工藝，面向 AI 訓(xùn)練、推理及通用計算等場景，是曦云 C 系列的升級主力。

當前進展上：

C600：2024 年 10 月完成流片，2025 年 7 月回片點亮，正在進行功能測試，預(yù)計明年實現(xiàn)大規(guī)模量產(chǎn)；

C700：預(yù)計 2027 年三季度完成小批量量產(chǎn)，之后逐步放量。

據(jù)招股書披露，這兩款均基于沐曦自研 GPU IP 與 MXMACA 軟件棧，支持混合精度算力、超高帶寬顯存，并對計算密度與互連系統(tǒng)進行深度優(yōu)化，旨在覆蓋從單卡到大規(guī)模集群的各種加速需求。

2. 天數(shù)智芯：國內(nèi)最早押注 GPGPU 的玩家之一

天數(shù)智芯成立于 2015 年，是國內(nèi)最早聚焦通用 GPU 研發(fā)的公司之一。早在 2020 年 12 月，天數(shù)智芯就點亮了其首款全自研、基于 7nm 工藝的高性能云端 GPGPU——天垓 100，并于 2021 年 3 月正式發(fā)布：

在 FP16/BF16 精度下峰值算力為 147 TFLOPS

發(fā)布時性能已達到國際先進水平

公司走的是“通用 GPU + 算力系統(tǒng)”的雙輪路線，在天垓 100 之后，又推出了第二款產(chǎn)品智鎧 100，進一步豐富云端高性能計算產(chǎn)品線。

公開數(shù)據(jù)顯示，截至 2022 年底，天垓 100 的累計銷售訂單已超過 5 億元，市場驗證效果較為明顯。業(yè)內(nèi)消息顯示，天數(shù)智芯正在推進港股 IPO 進程。

3. 壁仞科技：PFLOPS 級單芯片與異構(gòu)訓(xùn)練方案

壁仞科技，則是近年來聲量較高的另一家 GPGPU 廠商。2022 年，公司發(fā)布 BR100 系列 GPGPU，同樣采用 7nm 工藝與 CoWoS 2.5D 封裝。根據(jù)公開數(shù)據(jù)，BR100 在：

FP16 精度下峰值算力約 1024 TFLOPS

FP32 精度下峰值算力約 128 TFLOPS

壁仞方面宣稱其在部分指標上可超越英偉達 A100。技術(shù)路線方面，公司以“通用 GPU + Chiplet 技術(shù)”為核心，推出的壁礪系列 GPU 在單芯片整體算力上邁入 PFLOPS 級，算力密度處于全球高位水平。

在系統(tǒng)與軟件層面，壁仞推出了自主的異構(gòu) GPU 協(xié)同訓(xùn)練方案 HGCT。根據(jù)公司介紹：

首次在業(yè)界實現(xiàn)支持 3 種及以上 GPU（壁仞 GPU + 英偉達 GPU + 其他國產(chǎn)芯片）聯(lián)合訓(xùn)練同一個大模型；

已完成國內(nèi)首個“4 種及以上異構(gòu)芯片”混合訓(xùn)練方案落地。

這在一定程度上緩解了大型 AI 企業(yè)在算力擴展中的生態(tài)兼容、調(diào)度協(xié)同難題。

2024 年 12 月 15 日，壁仞科技已完成證監(jiān)會備案，擬赴港交所上市，被寄望成為“港股 GPU 第一股”。

4. 曦望等廠商：押注軟件棧和 CUDA 兼容

在當前 GPGPU 競爭中，軟件生態(tài)的重要性持續(xù)上升。一些企業(yè)選擇切入軟件棧層面，重點圍繞 CUDA 兼容與開發(fā)者體驗展開。

例如，曦望 Sunrise 推出的全棧自研方案基本對齊 CUDA，在通用 GPGPU 芯片 S2 上主打大模型推理場景：

面向大模型推理及多模態(tài)任務(wù)

兼容 CUDA 生態(tài)，性能對標英偉達 A100

在國內(nèi)大模型推理賽道中進入第一梯隊

這類路線更多地通過軟件生態(tài)與工具鏈來強化粘性，在算力性能之外構(gòu)筑差異化優(yōu)勢。

三、小結(jié)：三大信號勾勒國產(chǎn) GPGPU 新格局

從時間線拉長來看，中國 AI 芯片企業(yè)在 GPGPU 方向并非“被動補課”，而是至少在過去數(shù)年已經(jīng)展開系統(tǒng)布局，并且在多個關(guān)鍵節(jié)點完成了從“可用”到“好用”的階段性跨越。

以龍芯、沐曦、壁仞、天數(shù)智芯、曦望等為代表，當前國產(chǎn) GPGPU 產(chǎn)業(yè)大致呈現(xiàn)出以下三點趨勢和信號：

算力體系延伸：從 CPU 向 GPU 全棧打通

以龍芯為代表的廠商，正在從 CPU 出發(fā)，將通用 GPU 納入統(tǒng)一架構(gòu)和生態(tài)，形成“CPU+GPGPU”甚至“CPU+GPU+NPU”的多核協(xié)同，支撐從桌面終端到服務(wù)器、云端的多場景算力需求。

軟件生態(tài)成為新的主戰(zhàn)場

CUDA 兼容、編程接口、算子庫、集群管理與部署工具等軟層能力正成為核心競爭點。是否能在多個主流深度學(xué)習框架、大模型推理框架中形成穩(wěn)定支持，將直接決定硬件的可用度與客戶遷移成本。

差異化路線清晰：多家廠商各造“護城河”

龍芯側(cè)重 CPU+GPGPU 協(xié)同、端側(cè)與行業(yè)場景；

沐曦、壁仞重點攻高性能云端訓(xùn)練與推理市場，聚焦高算力與大規(guī)模集群；

天數(shù)智芯、曦望等則在特定應(yīng)用與軟件棧兼容上形成自己的支點。

可以預(yù)見，隨著龍芯 9A1000 量產(chǎn)推進、9A2000 及第三代 GPGPU 上線，以及沐曦 C600/C700、壁仞新一代產(chǎn)品陸續(xù)落地，國產(chǎn) GPGPU 正站在一個歷史性窗口期：從“點狀突破”走向“體系化競爭”。

國產(chǎn)GPGPU集體爆發(fā)！沐曦登陸科創(chuàng)板，龍芯也宣布了

企業(yè)新聞

行業(yè)新聞

國產(chǎn)GPGPU集體爆發(fā)！沐曦登陸科創(chuàng)板，龍芯也宣布了

企業(yè)新聞

行業(yè)新聞

國產(chǎn)GPGPU集體爆發(fā)！沐曦登陸科創(chuàng)板，龍芯也宣布了