leyu樂魚體育:一文了解國產(chǎn)AI芯片和英偉達(dá)的差距有多大
作者:leyu樂魚發(fā)布時間:2025-03-06
一、英偉達(dá)AI芯片的優(yōu)勢分析
從最終用戶的視角對英偉達(dá)GPU產(chǎn)品優(yōu)勢的評價,可概況為如下5點(diǎn);
好用:從芯片性能角度市場top1,不接受反駁。易用:CUDA生態(tài)配套工具齊全,上手無壓力。都在用:產(chǎn)品案例多、成熟度強(qiáng),市場認(rèn)可度高。各類場景都能用:產(chǎn)品布局全,各類場景都有高中低產(chǎn)品對應(yīng)。不同規(guī)模都能用:擴(kuò)展性強(qiáng),支持大規(guī)模集群擴(kuò)展,千卡、萬卡、十萬卡,統(tǒng)統(tǒng)不在話下leyu·樂魚。
二、國內(nèi)英偉達(dá)和國產(chǎn)芯片的市占率情況
今年最新數(shù)據(jù)暫時沒找到,下圖是IDC公布的去年H1國內(nèi)AI芯片出貨量情況,可以看到英偉達(dá)市的出貨量占據(jù)主導(dǎo)地位,市占率高達(dá)90%,總出貨量為51萬片,其中英偉達(dá)為46萬片,華為近4萬片,其他品牌總計在1萬片多一點(diǎn), 國產(chǎn)芯片排名靠前的分別為HW、昆侖芯和寒武紀(jì)等。

?。▓D片可放大看)
三、單芯片性能層面的對比
單卡性能差距集中在芯片算力(以FP16為例)、顯存大小和顯存類型、顯存帶寬、AI芯片間互聯(lián)帶寬等,如下2個截圖有詳細(xì)展示,大家自行查看:
1、英偉達(dá)在售或者即將發(fā)售的旗艦GPU產(chǎn)品
2、國產(chǎn)在售的主流AI芯片(部分)參數(shù)情況
四、單臺八卡機(jī)整機(jī)的性能對比
除了整機(jī)計算性能差距外,雖然都是八卡整機(jī),但是在其他規(guī)格方案也有差異,主要集中在芯片互聯(lián)和網(wǎng)卡配置,英偉達(dá)H100整機(jī)標(biāo)配8張cx7的400G網(wǎng)卡,而HW的ST八卡機(jī)是8張200G網(wǎng)卡,摩爾僅配置2張400G;
HW ST OAM八卡機(jī)的基本配置如下:
摩爾 S4000 OAM八卡機(jī)的內(nèi)存和網(wǎng)卡配置(截圖于其官網(wǎng)視頻):
五、AI芯片生態(tài)層面差距分析
芯片性能是紙面參數(shù),生態(tài)的成熟是決定用戶能否真正用起來的關(guān)鍵,英偉達(dá)CUDA生態(tài)發(fā)展了十余年成熟度和客戶使用覆蓋度都是最優(yōu)的,國內(nèi)AI芯片想突破英偉達(dá)壁壘主要是兩類路線,分布式兼容或者構(gòu)建自有生態(tài),天數(shù)、摩爾線程、海光DCU以兼容Cuda為主,而寒武紀(jì)、昆侖芯、昇騰、燧原、算能等則是構(gòu)建自有軟件棧,還有很長的路要走。
下圖為寒武紀(jì)的軟件棧布局(供參考)
六、大規(guī)模集群(千卡-萬卡)實際落地方面差距巨大
近2年以來,大模型訓(xùn)練相關(guān)的需求激增,對應(yīng)的AI服務(wù)器集群規(guī)模也越來越大。規(guī)模增大對GPU集群的真實效率和穩(wěn)定性提出了更高要求。放眼全球,OpenAI、微軟、xAI 和 Meta 在內(nèi)的多個頭部公司都在爭相建立超過 10 萬卡的GPU 集群,其中馬斯克宣布在短短122天內(nèi)建設(shè)10萬張英偉達(dá)H100卡的Colossus集群,全球AI算力的競爭進(jìn)入了全新階段。
據(jù)已公開的信息,國內(nèi)最大規(guī)模以萬卡集群為主,前幾天看新聞報道,百度升級AI異構(gòu)計算平臺百舸4.0,具備了10萬卡集群部署和管理能力,個人認(rèn)為國內(nèi)萬卡到十萬卡依然需要依賴英偉達(dá)的GPUleyu·樂魚(中國)體育官方網(wǎng)站。從國產(chǎn)AI芯片的角度,千卡集群不完全成熟(看不到落地實際案例,建好用不起來的除外),國產(chǎn)AI芯片廠商依然在宣傳千卡集群(如下截圖)。