作者 fordmvp (無名氏)
標題 [新聞] 林修民 半導體看天下》CloundMatrix 384
時間 Sun Jun  1 19:17:50 2025


※「新聞」標題須為原新聞標題且從頭張貼 ※


1.新聞網址︰
※ 請附上有效原文連結或短網址 ※

https://talk.ltn.com.tw/article/breakingnews/5058801
林修民 半導體看天下》CloundMatrix 384問世 證明華為還是需要台積電 - 自由評論網
[圖]
如果CloudMatrix384靠多出5倍的計算單元就能超越輝達GB200NVL72的AI算力,那華為為何還需要大費力氣製造這麼多白手套,轉運合法的晶片後重新拆解封裝取得內部的HBM? ...

 

2.新聞來源︰

自由評論網

3.完整新聞標題:
※ 內文請完整轉載標題 請勿修改與刪減 ※
※ 注意發文標題 為原始新聞標題從頭張貼 切勿修改與刪減 ※

林修民 半導體看天下》CloundMatrix 384問世 證明華為還是需要台積電

4.完整新聞內容︰
※ 請完整轉載原文 請勿修改內文與刪減 ※

林修民
林修民

2025/05/29 21:00
◎ 林修民

華為雲端 AI 高峰會於2025年5月16日在北京舉辦,聚焦 AI 算力與雲端基礎設施的革新
。華為雲端副總裁黃瑾在會中發表主題演講,介紹了更多全新一代 CloudMatrix 384
Supernode,其強調此技術將成為 AI 時代的關鍵算力引擎。

CloudMatrix 384 Supernode採用高達 384 顆華為自行設計的 Ascend 910C 晶片,總算
力高達 300 PFLOPS,性能較 NVIDIA GB200 NVL72 高出約 1.7 倍。記憶體方面超越輝達
產品的3.6 倍記憶體容量與 2.1 倍記憶體頻寬。


詳如下表

輝達與華為算力比一比。(作者提供)
輝達與華為算力比一比。(作者提供)

雖然Ascend 910C 單顆效能約為也是單顆GB200的 1/3,且採用的高頻寬記憶體(HBM)也
只是第二代延伸版(2E),相較於GB200搭配的第三代延伸版(3E),華為單組記憶體容
量Ascend 910C只有GB200的0.7倍,頻寬更只有0.4倍。


華為靠晶海戰術

雖然各基本單元都不如GB200,但384 顆Ascend 910C比72顆GB200數量多出了超過5倍,多
出3.6 倍記憶體容量與 2.1 倍記憶體頻寬,在整個系統層面還是得到上格的漂亮數據。

CloundMatrix 384成功擊敗了輝達旗艦系統GB200 NVL72了嗎?。示意圖 。(路透檔案照

CloundMatrix 384成功擊敗了輝達旗艦系統GB200 NVL72了嗎?。示意圖 。(路透檔案照


CloundMatrix 384成功擊敗了輝達旗艦系統GB200 NVL72了嗎?。

上述的數據透過很多媒體的傳播,讓很多中國的小粉紅或者是台灣的親中人士高興不已,
更坐實了他們過去講的東昇西降,中國半導體的技術無懼於美國的打壓,成功的彎道超車
,超英趕美,但事實真的如此嗎?


一.多5倍計算單元耗電暴增的代價,總功耗達對手近 4 倍。

耗電的代價在網媒Semianalysis已經談到了,其表示中國根本沒有所謂限電的問題,反正
獨裁恐怖的國家愛在哪裡蓋核電廠,核廢料要放哪裡,基本上都沒有人民表示意見的餘地
,在此不再贅述。


二、上表漂亮的數據沒有反應真正計算機架構中最重要的延遲!

在此筆者想問讀者一個問題,不知道讀者買電腦時有沒有注意到

為什麼同一個輝達Geforce RTX50單元但不同GDDR DRAM容量價錢差這麼多?


如果大家去查目前(2025/5)網路上輝達Geforce RTX5070Ti 8GB DRAM和16 GB DRAM的價
格會發現,同樣顯示卡廠商也同輝達晶片規格,只差在8GB的記憶體容量價差至少3000,
但8GB的DDR5 DIMM卻不用1000台幣,那為什麼不增加DDR5 DIMM的容量就好?


NVIDIA 正式揭曉新一代 GeForce RTX 50 。(法新社檔案照)
NVIDIA 正式揭曉新一代 GeForce RTX 50 。(法新社檔案照)

物理的極限不是政治喊口號就可以改變的


不管是現在跟很多國家因關稅吵架的西方川普政府,或者是東方喊著堅決維護習近平總書
記黨中央的核心和堅決維護黨中央領導的兩個維護。

上面不管哪一種東西方政治制度,在物理特質都是一樣的,也就是光的速度延遲與電磁波
的特性,例如雜訊等都是不會因為東方或是西方政治改變。

在電腦的架構裡面

GPU之間的速度 > 回到主記憶體的速度 >> 網路連結的速度

上面的公式是永恆不變的真理!

如果你有跑過LLM大型語言模型就會知道,你必須要使用具有大記憶體的H 100或是GB200
,你不能用同樣記憶體容量的主記憶體來取代,因為在AI參數交換當中,如果你的資料還
要從顯示晶片回到CPU再回到主記憶體,你的延遲時間會非常的長。這會導致你整個系統
訓練或是推論的時間就會被嚴重降級。


這就解釋上面那個問題為什麼顯示卡內的記憶體要比主記憶體的重要太多的原因,也是貴
太多的原因。

CloudMatrix採用網路來連結各機櫃而非NVL技術的速度

根據Semianalysis消息,CloudMatrix包含16個機櫃,其中 12 個為運算櫃,每個櫃放置
32顆Ascend晶片,其餘4個則作為光學互連核心。整體系統使用高達 6,912 顆 400G LPO
(線性可插拔光模組)收發器取代傳統銅線。


華為自己也知道晶海戰術是沒有先進晶片不得已的做法。示意圖 。(美聯社檔案照)
華為自己也知道晶海戰術是沒有先進晶片不得已的做法。示意圖 。(美聯社檔案照)

另根據華為公布的消息,CloudMatrix 384 另一項重大創新則在於雙層高速網路架構。內
部採用 ScaleUp 總線網路,提供 2.8Tbps 頻寬與奈秒級延遲;外部則為 ScaleOut 網路
,支援微秒級延遲並具備彈性擴展能力,再加上智慧調度系統,讓AI任務穩定且高效運行


而根據上面公開兩個資料我們可以發現,華為的系統其實是透過網路(雖然他的網路線不
是使用銅線,而是使用光纖),這個狀況比GPU回到主記憶體去存取參數還要嚴重非常多
(延遲從奈秒變成微秒等級,慢了1000倍),因為他必須要透過網路線到另外一台機櫃去
存取。


華為自己也知道晶海戰術是沒有先進晶片不得已的做法

Semianalysis報告同時指出,Ascend 910C 雖然完全由華為設計,但其製造過程高度依賴
外國供應鏈,包括來自韓國三星的 HBM2E、台灣台積電的晶片以及美國、荷蘭、日本製的
半導體製造設備。台積電更因此涉嫌繞過制裁供應晶片,可能面臨高達 10 億美元罰款。

中國華為透過白手套規避制裁,取得台積電晶片。示意圖 。(路透檔案照)

中國華為透過白手套規避制裁,取得台積電晶片。示意圖 。(路透檔案照)

華為透過白手套公司 Sophgo 向台積電採購80 萬顆 Ascend 910B 與 105 萬顆 Ascend
910C。而轉運至中國再被拆解出來的HBM2E使的三星也成為中國最主要的HBM供應商,傳聞
華為已儲備高達 1300萬組 HBM 堆疊組件,可支援 160 萬顆 Ascend 910 晶片先進封裝


如果CloudMatrix 384靠多出5倍的計算單元就能超越輝達GB200 NVL72的AI算力,那華為
為何還需要大費力氣製造這麼多白手套,轉運合法的晶片後重新拆解封裝取得內部的
HBM? 384顆不夠,改用484顆, 甚至584顆就好了,何必搞得這麼麻煩?

綜上,華為真的非常需要台積電的先進製造能力以及美韓次世代的HBM,所以筆者也預期
接下來會華為會不斷地使用各種白手套、詐欺等手段繼續獲得先進半導體晶片,這也會替
台美日等人權法治國家的出口管制帶來更嚴重的挑戰。


(作者為科技專欄作家)

5.附註、心得、想法︰
※ 40字心得、備註 ※

※ 「Live」、「新聞」、「轉錄」、「舊聞」及 轉錄他方內容之文章
    每日發文數總上限為3篇,自刪與板主刪除,同樣計入額度 ※


華為被迫用網路線連接機櫃,延遲很嚴重

輝達是GPU到主記憶體連接

而且功耗近4倍,效能不到兩倍

目前美中兩國算力差距頗大

美國獨強

中國差美國蠻遠的


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.70.164 (臺灣)
※ 作者: fordmvp 2025-06-01 19:17:50
※ 文章代碼(AID): #1eF3RXmy (HatePolitics)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1748776673.A.C3C.html
a2550099: 紫色吸屌鬼跟神靈等等就會來貼一堆幹圖說支那一定贏1F 42.73.241.210 台灣 06/01 19:22
siegfred: 結論:中國或成最大贏家
美國和中國脫鉤將造成企業離開美國,最終導致美國科技落後於中國,中國科技必將超越美國3F 118.168.98.253 台灣 06/01 19:23
kuninaka: 贏麻了
功耗四倍7F 1.173.130.147 台灣 06/01 19:27
lostsky93: 用五倍的晶片數量裝在來系統櫃上,然後藍白黨徒高潮中國又超車了@@9F 220.132.170.144 台灣 06/01 19:31
MacBookAir12: 384就真是把膠水黏晶片玩笑話實現了11F 175.182.175.33 台灣 06/01 19:31
WTF55665566: 不意外啊 連三星都打不過的能耗比跟良率 更爛的華為怎麼可能打得過?只能在大外宣上做文章而已12F 111.71.68.132 台灣 06/01 19:32
lostsky93: 人家美國72顆就達到相同效果,且減少晶片間通訊延遲問題,體積小,耗電少,散熱快
怎連晶片都在玩那套人海戰術的宣傳啊?塞越多顆就可以彌補技術落差喔15F 220.132.170.144 台灣 06/01 19:32
kuninaka: 以下開放小草笑台灣做不出來20F 1.173.130.147 台灣 06/01 19:33
William: 去搭配deepseek發展的方向就看的懂了吧,硬體打不贏靠堆料所以在軟體結構上選擇用較低算力需求的訓練方式..21F 223.137.77.53 台灣 06/01 19:34
kuninaka: deepseek是優化演算法,那個不是堆硬體不太一樣24F 1.173.130.147 台灣 06/01 19:39
William: ...當單位硬體算力成本變貴就會想出減少算力需求的軟體架構..這應該不難理解吧..26F 223.137.77.53 台灣 06/01 19:41
desho: 支那的作法是一直堆高算力  扯啥低算力需求29F 36.239.223.58 台灣 06/01 19:45
kuninaka: 喔,我沒注意到你後面那句,抱歉
低算力需求是因為deepseek手上沒有
最強的N卡阿30F 1.173.130.147 台灣 06/01 19:45
desho: 蒸餾來的當然不需要高算力硬體
蒸餾來的DS也無法再進化  很快就會被沒落33F 36.239.223.58 台灣 06/01 19:47
kuninaka: deepseek最近又進化了喔
DeepSeek R1-0528又比之前強很多35F 1.173.130.147 台灣 06/01 19:49
desho: DS永遠無法畫圖阿  除非又偷到新版的37F 36.239.223.58 台灣 06/01 19:51
kuninaka: 然後把新的訓練成果放到Qwen3 8B Base效果還不錯
目前是原生中文LLM,最強的38F 1.173.130.147 台灣 06/01 19:51
William: 笑死..ds沒進化?41F 223.137.77.53 台灣 06/01 19:51
kuninaka: 是比不上美國眾神的LLM拉
但是我覺得就是CP很高的東西
DeepSeek R1就不是拿來畫圖的模型
喔,還有DeepSeek對於安全保護也很破42F 1.173.130.147 台灣 06/01 19:51
amos30627: 老黃扯的是他還在4nm算力就那麼誇張了等他上2nm甚至A16會很恐怖
未來晶圓級面板級封裝起來晶片面積超大46F 111.185.173.215 台灣 06/01 20:13
mynumber55: 地係廢到連ai討論區都沒討論了49F 42.77.149.48 台灣 06/01 20:19

--
作者 fordmvp 的最新發文:
點此顯示更多發文記錄