<strong id="5lvfi"><dl id="5lvfi"></dl></strong>

      • <tfoot id="5lvfi"><menuitem id="5lvfi"></menuitem></tfoot>
        <th id="5lvfi"><progress id="5lvfi"></progress></th>
          <strong id="5lvfi"><form id="5lvfi"></form></strong>
          <strong id="5lvfi"><form id="5lvfi"></form></strong>
        1. <del id="5lvfi"></del>

          首頁>商情資訊>行業(yè)新聞

          聯(lián)合華為!國產(chǎn)大模型登頂全球,0.1元一張圖

          2026-1-19 10:18:00
          • 智譜與華為聯(lián)合宣布開源最新圖像生成模型 GLM-Image,并登上 Hugging Face Trending 榜單,引發(fā)了業(yè)內(nèi)高度關(guān)注。背后最關(guān)鍵的三個詞是:開源、SOTA 性能、全棧國產(chǎn)。

          聯(lián)合華為!國產(chǎn)大模型登頂全球,0.1元一張圖

          智譜與華為聯(lián)合宣布開源最新圖像生成模型 GLM-Image,并登上 Hugging Face Trending 榜單,引發(fā)了業(yè)內(nèi)高度關(guān)注。背后最關(guān)鍵的三個詞是:開源、SOTA 性能、全棧國產(chǎn)。尤其是這一次,從數(shù)據(jù)預(yù)處理到大規(guī)模預(yù)訓(xùn)練,整個流程全部跑在華為昇騰 Atlas 800T A2 芯片和昇思 MindSpore 框架之上——在高性能算力長期被海外廠商壟斷的背景下,這是國內(nèi)團(tuán)隊(duì)首次用“純國產(chǎn)”算力訓(xùn)練出站在世界前沿的多模態(tài) SOTA 模型,具有標(biāo)志性意義。

          一、“自回歸 + 擴(kuò)散解碼器”:面向“認(rèn)知型生成”的新路線

          跟很多只是照著 Stable Diffusion、Flux 路線“再做一遍”的模型不同,GLM-Image 瞄準(zhǔn)的是新一代“認(rèn)知型生成”范式,在架構(gòu)上走了一條新路:自回歸主干 + 擴(kuò)散解碼器的混合結(jié)構(gòu)。

          官方給出的設(shè)計思路大致可以概括為:

          9B 自回歸模型

          負(fù)責(zé)整體語義理解和畫面全局構(gòu)圖,類似“腦子”和“導(dǎo)演”:

          理解長文本提示里的邏輯關(guān)系

          把場景、角色、布局等信息串起來

          確保生成結(jié)果在內(nèi)容層面“說得通”

          7B 擴(kuò)散解碼器

          專注高頻細(xì)節(jié)和像素級表現(xiàn),類似“攝影師”和“美術(shù)”:

          細(xì)化紋理、光影、材質(zhì)等細(xì)節(jié)

          尤其強(qiáng)化文字筆畫等“硬指標(biāo)”細(xì)節(jié)

          這種分工,讓 GLM-Image 同時兼顧了整體一致性和局部精細(xì)度,在權(quán)威評測上拿到了非常亮眼的成績:

          CVTG-2K(復(fù)雜視覺文字生成)

          文字準(zhǔn)確率:0.9116

          歸一化編輯距離(NED):0.9557

          兩項(xiàng)指標(biāo)均位列第一。

          LongText-Bench(長文本渲染)

          中文得分:0.979

          英文得分:0.952

          在開源模型中處于榜首位置。

          從智譜公開的樣例可以看到,GLM-Image 在以下幾類內(nèi)容上表現(xiàn)尤其突出:

          帶有流程邏輯的科普類插畫(如步驟分解、結(jié)構(gòu)講解)

          社交媒體風(fēng)格濃厚的圖文排版(如小紅書封面風(fēng)格)

          商業(yè)海報、人像、游戲原畫偏向的風(fēng)格化作品

          實(shí)際體驗(yàn)來看,GLM-Image 的整體畫風(fēng)統(tǒng)一度較高,對“邏輯清晰、內(nèi)容解釋性強(qiáng)”的科普場景比較友好。不過,目前在極端復(fù)雜的文字生成場景下,個別字詞仍會出現(xiàn)偏差,這一點(diǎn)在行業(yè)內(nèi)也仍是普遍難題。

          二、多模型對比:同一條提示詞,不同“審美取向”

          當(dāng)前圖像生成賽道競爭異常激烈。谷歌依托 Gemini 生態(tài)推出的 Nano Banana Pro,以“企業(yè)級畫質(zhì)”和強(qiáng)大的文圖協(xié)同力,成為閉源方向的代表;國內(nèi)則有阿里通義萬相、字節(jié)旗下的即夢等不斷迭代產(chǎn)品。

          以“三國赤壁之戰(zhàn)”為題,用同一條中文長提示詞分別喂給幾款常見模型,可以看到非常明顯的風(fēng)格差異(提示詞略):

          GLM-Image

          整體呈現(xiàn)偏漫畫/游戲原畫風(fēng)格

          色彩飽和度高、線條清晰

          場景構(gòu)圖相對規(guī)整,故事感強(qiáng)

          Nano Banana

          強(qiáng)項(xiàng)在于光影與動態(tài)細(xì)節(jié)

          如火焰形態(tài)、水面反射、衣袍飄動、煙霧氛圍等都刻畫得非常細(xì)膩

          畫面質(zhì)感更接近電影視覺特效

          ChatGPT 圖像能力

          擅長處理復(fù)雜、多主體的大場景

          物體之間的關(guān)系更協(xié)調(diào),戰(zhàn)爭“史詩感”更明顯

          在敘事層面更有“全局導(dǎo)演感”

          即夢

          在中文語境中,明顯更注重歷史文化細(xì)節(jié)與中國美學(xué)

          比如古代戰(zhàn)船結(jié)構(gòu)、旗幟樣式、服飾紋樣,會更貼近史料與傳統(tǒng)審美

          從這些對比中可以看到,各家模型在“畫面精美度”上都已經(jīng)來到相對接近的水平,下一階段的競爭,很大程度上會轉(zhuǎn)向:

          文字渲染的穩(wěn)定性與準(zhǔn)確率

          對復(fù)雜知識、場景邏輯的理解與表達(dá)能力

          這也意味著,像海報設(shè)計、PPT 插圖、長圖科普、流程講解等知識密集型場景,將越來越多地被多模態(tài)大模型“接管”。

          三、從“能畫”到“能懂”:昇騰 A2 + MindSpore 的全棧國產(chǎn)實(shí)踐

          智譜認(rèn)為,以 Nano Banana Pro 為代表的新一代閉源圖像模型正在推動“圖像生成 + 大語言模型”的深度融合,技術(shù)范式也在從“單一圖像生成”升級為具備世界知識和推理能力的“認(rèn)知型生成”。

          在這個演進(jìn)路徑中,GLM-Image 的架構(gòu)創(chuàng)新是“上層邏輯”,而華為昇騰 + 昇思 MindSpore 則是讓這一邏輯落地的算力底座。

          在當(dāng)前高性能 GPU 供給緊張、價格高企、出口受限的現(xiàn)實(shí)環(huán)境下,想要訓(xùn)練一個數(shù)十億參數(shù)、支持 2048×2048 高分辨率輸出的多模態(tài) SOTA 模型,對以下幾個方面的要求都極高:

          集群算力穩(wěn)定性與擴(kuò)展性

          高帶寬通信能力

          訓(xùn)練效率與能效比

          大規(guī)模任務(wù)的調(diào)度與容錯能力

          傳統(tǒng)觀點(diǎn)往往默認(rèn):只有大規(guī)模英偉達(dá) GPU 集群才能勝任這類任務(wù)。但智譜與華為的協(xié)作給出了一個實(shí)證案例:國產(chǎn)芯片不僅能“跑推理”,也可以支撐最前沿的大規(guī)模端到端訓(xùn)練。

          公開信息顯示,GLM-Image 的全生命周期訓(xùn)練都落在 Ascend A2 集群上完成,包括:

          海量圖文數(shù)據(jù)的預(yù)處理

          大規(guī)模預(yù)訓(xùn)練

          監(jiān)督微調(diào)(SFT)

          強(qiáng)化學(xué)習(xí)后訓(xùn)練(RL)

          為把昇騰 NPU 的潛力“榨干”,智譜與華為圍繞昇思 MindSpore 做了不少底層改造和優(yōu)化,例如:

          動態(tài)圖多級流水下發(fā)

          將 Host 側(cè)算子下發(fā)階段拆解并流水化處理,關(guān)鍵步驟高度重疊,減少下發(fā)瓶頸,提升整體訓(xùn)練吞吐。

          多流并行執(zhí)行

          針對文本梯度同步、圖像特征廣播等易形成“通信墻”的環(huán)節(jié),進(jìn)行多流并行設(shè)計,盡量壓縮等待時間,拉高有效算力利用率。

          昇騰親和融合算子

          使用如 AdamW EMA、COC 等適配昇騰 NPU 的高性能算子,提高訓(xùn)練穩(wěn)定性與性能。

          在圖像生成的“可用性”方面,GLM-Image 也做了面向?qū)嶋H業(yè)務(wù)場景的改造。傳統(tǒng)模型在生成非正方形圖像時,通常需要后期裁剪或重繪,以適配各種封面、橫幅比例,難免出現(xiàn)內(nèi)容被切掉或變形的問題。GLM-Image 通過改進(jìn) Tokenizer 策略,原生支持在 1024×1024 至 2048×2048 范圍內(nèi)的任意比例輸出,可以直接產(chǎn)出小紅書封面、電影海報橫幅等尺寸,減少乃至免除二次處理,提升生產(chǎn)效率。

          更值得一提的是,GLM-Image 是首個開源的工業(yè)級離散自回歸圖像生成模型。與閉源的 Nano Banana Pro 相比,它在部分指標(biāo)上已經(jīng)可以對標(biāo)甚至局部超越,同時又向全球開發(fā)者開放了完整的技術(shù)路徑,為后續(xù)相關(guān)研究提供了可以復(fù)現(xiàn)、可以疊代的“工程級”基線。

          四、價格拉到“白菜價”,國產(chǎn) AI 走到分水嶺

          在應(yīng)用端,智譜給出的 API 定價也頗具沖擊力:調(diào)用接口生成一張圖片的成本大約在 0.1 元左右。這基本把高質(zhì)量 AI 生圖的門檻壓縮到了普通個人和中小團(tuán)隊(duì)都可以輕松承受的區(qū)間:

          中小企業(yè)可以低成本搭建自己的視覺內(nèi)容生產(chǎn)線

          獨(dú)立開發(fā)者可以把圖像能力嵌進(jìn)小程序、工具網(wǎng)站、SaaS 服務(wù)

          內(nèi)容創(chuàng)作者也能把海報、插圖、長圖科普等環(huán)節(jié)交給模型完成初版,再自己做微調(diào)

          與此同時,通過開源,GLM-Image 也為學(xué)術(shù)界、工業(yè)界提供了一套完整可復(fù)現(xiàn)的技術(shù)路線,有利于圍繞“認(rèn)知型生成”開展更多創(chuàng)新實(shí)驗(yàn)與產(chǎn)業(yè)化探索。

          更重要的是,GLM-Image 的真正“里程碑”意義,并不只在于它又多拿了幾項(xiàng) SOTA,而在于:

          這是首個在國產(chǎn)芯片上完成全流程訓(xùn)練的 SOTA 級多模態(tài)生成模型。

          換句話說,在大模型時代最關(guān)鍵的底層要素——算力+框架+模型三件套中,國內(nèi)終于拿出了一次完整、自主可控又能對標(biāo)世界一流的實(shí)踐案例。這一點(diǎn),很可能會被視為國產(chǎn) AI 進(jìn)入新階段的“分水嶺時刻”。

          從智譜的總結(jié)也能看出這種意味:

          GLM-Image 已經(jīng)不僅是一款獨(dú)立的圖像生成產(chǎn)品,更是一套用國產(chǎn)全棧算力訓(xùn)練世界級多模態(tài)模型的“樣板工程”,它證明了這條路是走得通的——而接下來,才是真正的競賽起點(diǎn)。

            <strong id="5lvfi"><dl id="5lvfi"></dl></strong>

              • <tfoot id="5lvfi"><menuitem id="5lvfi"></menuitem></tfoot>
                <th id="5lvfi"><progress id="5lvfi"></progress></th>
                  <strong id="5lvfi"><form id="5lvfi"></form></strong>
                  <strong id="5lvfi"><form id="5lvfi"></form></strong>
                1. <del id="5lvfi"></del>
                  激情开心成人 | 久久成人91 | 国产成人久久久久 | 日韩视频中文字幕在线 | 91乱伦精品 |