
相信對超算市場有過一定了解的朋友,都對曾經(jīng)的第一名富岳超算不陌生。這臺2021年正式啟用的超算,是全球首臺登頂TOP500的Arm架構(gòu)超算。富岳采用了富士通設(shè)計A64FX SoC,整個超算集群的峰值性能可以達(dá)到537.21PFlop/s。如此強大的性能,甚至于日本東京工業(yè)大學(xué)、日本東北大學(xué)等都宣布將借助富岳來開發(fā)日語生成式AI。
然而在最新的TOP500排行榜上,隨著更新的英特爾Xeon和AMD EPYC處理器紛紛到位,如今的富岳已經(jīng)降至第四名的位置。為此,富士通也在開發(fā)A64FX的繼任者,并計劃用于下一代超算的開發(fā)中去。
Monaka,A64FX的繼任者
作為一直在超算領(lǐng)域發(fā)力的頭部廠商之一,富士通此前一直選擇SPARC作為其計算處理器的架構(gòu),直到A64FX的出現(xiàn)。A64FX面世之時一度被稱為最強Arm處理器,也讓不少人對Arm在數(shù)據(jù)中心和HPC的前景有了新的改觀。
然而這種眾核處理器,除非經(jīng)過特殊的架構(gòu)優(yōu)化,否則并不適合用于通用服務(wù)器,國產(chǎn)的申威26010服務(wù)器也是類似的設(shè)計思路。但不可否認(rèn)在HPC應(yīng)用下,眾核處理器可以發(fā)揮出媲美甚至超越傳統(tǒng)x86旗艦處理器的實力。
近日,富士通宣布了他們在研的下一代眾核Arm處理器Monaka,該處理器除了改用Armv9架構(gòu),引入了SVE2之外,還采用了云原生的3D眾核設(shè)計,專為數(shù)據(jù)中心做了能效優(yōu)化。Monaka采用了3D Chiplet的設(shè)計方案,其中處理器核心die基于2nm工藝打造,而SRAM和IO die基于5nm工藝打造,通過TSV與核心die相連。
Monaka 3D眾核架構(gòu) / 富士通
據(jù)富士通透露,2nm的核心die區(qū)域僅僅占了整個芯片面積的不到30%,從而帶來極高的能效表現(xiàn),只需用到風(fēng)冷。同時3D眾核架構(gòu)使其可以塞入雙插槽144個核心,實現(xiàn)極低的延遲和更高的帶寬。
至于在軟件支持上,富士通除了持續(xù)開發(fā)Linux OS中行業(yè)標(biāo)準(zhǔn)軟件的支持外,也會參與發(fā)展與Arm相關(guān)的開源軟件生態(tài),加強在Python、Java、LLVM等標(biāo)準(zhǔn)工具上的性能表現(xiàn)。Monaka預(yù)計將于2027年正式亮相,考慮到其流片時間,富士通既有可能選擇臺積電、英特爾等現(xiàn)有的先進(jìn)晶圓代工廠,也可能考慮正在建設(shè)2nm工廠的Rapidus。
HPC轉(zhuǎn)向AI主導(dǎo)?
作為目前最有利可圖的市場,AI正在驅(qū)動GPGPU聚焦在低精度計算的算力升級上。在CUDA平臺的助力下,HPC生態(tài)的門檻也在持續(xù)降低。從這幾年發(fā)布的新品來看,無論是FP16、FP8的算力都在成倍增長,然而在FP64這種傳統(tǒng)HPC應(yīng)用需要用到的高精度數(shù)據(jù)格式上,性能提升卻相當(dāng)有限。
更重要的是,要想通過堆量來提高HPC集群的FP64性能也不再現(xiàn)實了,因為GPU的TDP提升幅度甚至更高。為此,富士通的看法是,將更多的FP64單元放在CPU端,而將更多的HBM和低精度矩陣單元放在GPU端,這樣構(gòu)建HPC系統(tǒng)的客戶就不再需要為GPU的巨額成本和巨量功耗買單,卻可以利用其在深度學(xué)習(xí)上的卓越性能。同時,開發(fā)更多HPL-MxP應(yīng)用,利用混合精度計算來提高效率。當(dāng)然了,也可以施壓GPU廠商進(jìn)一步改善其FP64性能,只不過在生成式AI依舊火熱的當(dāng)下,讓GPU廠商放棄這個搖錢樹并不現(xiàn)實。

