[情報] MI300X vs H100 vs H200測試&分析 - semi - Stock板

看板 Stock
作者 baddaddy (壞爸爸)
標題 [情報] MI300X vs H100 vs H200測試&分析 - semi
時間 Tue Dec 24 10:05:04 2024

標題：
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

網址：
https://reurl.cc/oVyd9v

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive – SemiAnalysis

Intro SemiAnalysis has been on a five-month long quest to settle the reality of MI300X. In theory, the MI300X should be at a huge advantage over Nvidi ...

內文：
此篇為semianalysis 測試5個月比較
MI300X H100 H200實際使用的效能以及使用上的現況

下面放上作者的發現總結，詳細請看文章

1. 在紙上比較 FLOP/s 和 HBM 頻寬/容量類似於僅透過檢查百萬像素數來比較相機。判斷?

2. Nvidia 的開箱即用效能和體驗令人驚嘆，我們在基準測試期間沒有遇到任何 Nvidia 特

3. AMD 的開箱即用體驗非常難以使用，需要相當大的耐心和努力才能達到可用狀態。在我們的大多數基準測試中，AMD PyTorch 的公共 AMD 穩定版本仍然存在問題，我們需要解決方法。

4 如果沒有多個 AMD 工程師團隊對我們遇到的 AMD 軟體錯誤進行分類和修復的支持，AMD 的結果將遠低於 Nvidia。

5 . 我們與 Sustainable Metal Cloud 合作在 256 H100 上運行非官方 MLPerf Training GPT-3 175B，以測試不同 VBoost 設定的效果

6. 對於 AMD 來說，公開穩定發布的軟體的真實世界性能與其紙面銷售的 TFLOP/s 相差甚遠。 Nvidia 的現實世界表現也低於其行銷 TFLOP/s，但相差不大。

7. 與 H100/H200 相比，MI300X 的總擁有成本 (TCO) 較低，但在 AMD 軟體的公共穩定版本上，MI300X 的每 TCO 訓練效能較差。如果使用 AMD 軟體的客製化開發版本，情況就會改變。

8. 訓練效能較弱，MI300X的矩陣乘法微基準測試表明，AMD公開發布的軟體在單節點訓練吞吐量上仍落後於Nvidia的H100和H200。

9. MI300X 的效能受到 AMD 軟體的阻礙。 BF16開發分支上的AMD MI300X軟體具有更好的效能，但尚未合併到AMD內部儲存庫的主要分支中。當它合併到主分支和 PyTorch 穩定版本時，Nvidia Blackwell 將已經可供所有人使用。

10. AMD 的訓練表現也受到阻礙，因為 MI300X 無法提供強大的橫向擴展效能。這是由於與Nvidia 對其Nvidia 集體通訊庫(NCCL)、InfiniBand/Spectrum-X 網路結構和交換器的強大整合相比，其ROCm 計算通訊庫(RCCL) 較弱，且AMD 與網路和交換硬體的垂直集成程度較低。

11. 許多 AMD AI 庫都是 NVIDIA AI 庫的分支，導致結果不佳和相容性問題。

12. AMD 客戶傾向於僅使用手動製作的核心進行推理，這意味著它們在非常狹窄的明確定義的用例之外的效能很差，並且不存在快速轉移工作負載的靈活性。

-----
Sent from JPTT on my Google Pixel 7 Pro.

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.147.134 (臺灣)
※ 作者: baddaddy 2024-12-24 10:05:04
※ 文章代碼(AID): #1dQXRI5B (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1735005906.A.14B.html

→ Alwen: 連H100都打不贏，好慘ㄛ1F 12/24 10:11

推 SSglamr: 卒業2F 12/24 10:12

推 tomdavis: NV底層蹲了10年其他人要幾年內追上也不容易3F 12/24 10:12

推 sdbb: 所以obov 早就把AMD 蛋雕4F 12/24 10:13

推 pieceioriX: AMD是不是要在沙崙建研發中心? 難怪卒業預定5F 12/24 10:13

噓 stationary: 難怪教主跳車了6F 12/24 10:13

推 zerro7: H100都已經過時產品還...7F 12/24 10:13

→ Alwen: 難怪aws 裡面的人說沒人要用AMD GPU是真的8F 12/24 10:14

推 capssan: 簡單來說 AMD卒業9F 12/24 10:14

→ Alwen: AMD今年還是負報酬10F 12/24 10:15

推 ck6m454: AMD就垃圾沒人要阿，整年還是跌的不是沒原因11F 12/24 10:16

→ baddaddy: amd軟體太差了，沒想到遊戲顯卡的nv driver值5000也能套在AI上12F 12/24 10:16

噓 k0611812: 教主殞落14F 12/24 10:17

※ 編輯: baddaddy (101.12.147.134 臺灣), 12/24/2024 10:18:00

→ ck6m454: GPU和AI沒一個能打15F 12/24 10:18

→ goodjop: 一個是已經有長遠計畫一個只是模仿追尾是要怎麼比16F 12/24 10:19

推 dragonjj: 難怪AMD跌這麼慘...AI上面被海放!17F 12/24 10:19

推 NexusPrime: 真遙遙領先18F 12/24 10:22

推 gbman: NV軟體值5000!驅動就看的出來了XD19F 12/24 10:25

推 sdbb: Obov應該年初或Q1就把AMD 倒給小兒了20F 12/24 10:25

→ CCH2022: https://i.imgur.com/v4PAPdp.jpeg
整合度相容度高，NV體驗完勝21F 12/24 10:26

噓 abc21086999: 這是什麼AI轉錄之後自動翻譯的文章嗎？
品質很差23F 12/24 10:27

→ sdbb: Obov仍大賺，只漏掉tsla25F 12/24 10:27

推 gbman: AMD還是乖乖做PC CPU X3D和遊戲機SOC就好CC26F 12/24 10:28

推 OSDim: 驅動值五千QQ27F 12/24 10:28

推 junior020486: 陳先生你的科技水平太落後了28F 12/24 10:28

噓 laogiby: AMD電子垃圾生產出來浪費電的29F 12/24 10:31

推 falcon11: 這驅動現在大概值500b30F 12/24 10:38

推 alcard22: nv顯卡的驅動價格已經是過去式了XD
AMD看起來路還很長遠，看來都反映在股價上了31F 12/24 10:38

推 oGsMvP: 卒業33F 12/24 10:41

推 GivemeApen: 還好amd賣在190 嘻嘻34F 12/24 10:42

推 vincent0911x: 有第一買為什麼要買第二 NV 台G 無限資金買就對了35F 12/24 10:42

推 ImCPM: 難怪AMD瘋狂烙賽36F 12/24 10:43

推 mopa: cuda豈是說繞就繞得過去的技術37F 12/24 10:45

推 luvstarrysky: 不意外阿 ppt吹得多屌實際就多烙賽38F 12/24 10:49

→ KY1998: 跟h100比報價有差？而且差滿多的？39F 12/24 10:49

推 square: AMD的cpu不是一堆人在搶？40F 12/24 10:49

→ luvstarrysky: amd還是回去顧好cpu就好吧市佔都還沒贏過intel41F 12/24 10:49

→ Alwen: 星空大師終究還是趕來戰場惹42F 12/24 10:50

→ luvstarrysky: 就想開這麼多條線還打成這個樣子花一堆錢在AI上結果出這什麼垃圾43F 12/24 10:50

推 Vansace: 目前AMD強的是CPU 誰在吹AI跟GPU? 竹竿裝菜刀45F 12/24 10:52

推 luvstarrysky: 不要最後把大半的錢砸在AI上結果CPU也被打趴
畢竟CPU那邊也沒有說領先多少一代可能被追上46F 12/24 10:52

→ Vansace: AMD的AI跟GPU 只是希望就算落後也不要差太多而已48F 12/24 10:54

推 Transposon: 星空大在幫呆兒自介歐49F 12/24 10:55

推 BruceChen227: NVDL繼續抱！50F 12/24 10:56

→ goodjop: 牙膏給GG代工 CUP很快就可以超越AMD了拉51F 12/24 10:58

推 luvstarrysky: 對呀這代intel桌機也才第一代用台積電製程
當初AMD剛跟台積電合作時也一堆問題下一代不就
爆發52F 12/24 11:00

噓 gladopo: 連h100都打不贏快島一島55F 12/24 11:02

→ luvstarrysky: 而且intel這一代架構還是用舊的就MTL的改進版56F 12/24 11:03

推 Xray2002: 驅動值5000梗又能用了嗎57F 12/24 11:03

推 aegis43210: 主要是架構問題，CDNA3不太適合AI運算，等MI350才能58F 12/24 11:03

→ luvstarrysky: 下一代完全新架構 amd只要不跟著大改進就會被打趴59F 12/24 11:03

→ aegis43210: 改善60F 12/24 11:03

→ gladopo: 產能拿來做9800X3D比較實在啦61F 12/24 11:03

→ luvstarrysky: 而且到時intel還有自家18A製程選擇更為彈性62F 12/24 11:04

推 y800122155: 連CP值都輸可悲啊現在各家ASIC都搞起來了
AMD還能搶得到什麼？？63F 12/24 11:05

推 sky5566: 好險沒接AMD65F 12/24 11:08

推 jerrylin: 難怪AMD崩崩66F 12/24 11:13

→ luvstarrysky: amd就每個市場都想分一杯羹阿硬湊進來被打爛
真不知砸一堆錢搞這幹嘛67F 12/24 11:18

→ bnn: 99AMD 卒業預定69F 12/24 11:30

推 yangcy: 教主已經轉倉*黃BG*了,已經逍遙去卒業寫生了70F 12/24 11:33

推 pacino: 難怪a90灰心到連Ptt都不上了71F 12/24 11:36

→ Heedictator: 卒72F 12/24 11:38

→ Alwen: a90已經去退休環遊世界惹八，身家都十位數惹，連蘋果工作都辭惹73F 12/24 11:46

推 a64186401: 簡單總結 NV屌虐75F 12/24 11:53

推 johnjohnlin: 99amd76F 12/24 11:55

推 chehsien: MI300很差是早已知了看MI450有無機會分食Nvidia77F 12/24 12:12

推 eriker: amd又不能跑ai模型買來裝飾的喔78F 12/24 12:15

→ CorkiN: 這時間a90大概放假回台灣啦回台灣的時候幾乎都不上線的79F 12/24 12:52

推 qqpbpp: amd未來價值不在gpu上81F 12/24 13:49

→ greedypeople: 可是上個被A90說卒業預定的公司.......82F 12/24 18:29

推 sdbb: AMD沒有Elon Musk83F 12/24 21:12

作者 baddaddy 的最新發文:

[新聞] 川普希望美國製造全球5成晶片賴清德紐時專訪提解方 - Tech_Job 板

作者: baddaddy 36.231.180.155 (台灣) 2025-12-04 20:13:40

32F 10推 11噓
+123 [情報] AMD Radeon 顯卡將於 2026 年起全面漲價8 - PC_Shopping 板

作者: baddaddy 49.216.44.3 (台灣) 2025-12-03 10:08:03

原文標題：據報道，AMD 將把 Radeon 8GB/16GB 顯示卡的價格上調 20-40 美元日期來源： 2025.12.03 內文： 2026 年起，AMD 將對 Radeon 顯卡實施分 …

234F 126推 3噓
+9 [新聞] 台積電小心！傳英特爾將獲得蘋果訂單郭明錤這麼說 - Tech_Job 板

作者: baddaddy 49.216.53.177 (台灣) 2025-12-01 10:31:48

27F 10推 1噓
+11 [情報] 由於GDDR記憶體短缺，NVIDIA或將停止在GPU中捆綁銷售記憶體。 - PC_Shopping 板

作者: baddaddy 49.216.51.135 (台灣) 2025-11-28 17:00:15

21F 11推
+7 Re: [閒聊] 到底n7銷售的問題在哪裡？ - car 板

作者: baddaddy 49.216.54.126 (台灣) 2025-11-27 18:27:33

34F 7推

點此顯示更多發文記錄