※ 本文轉寄自 ptt.cc 更新時間: 2026-07-03 14:24:48
看板 Stock
作者 標題 Re: [請益] 算力需求到底是缺還是快飽和了?
時間 Fri Jul 3 07:59:55 2026
QQ先 disclaimer 一下。
剛剛把自己寫的廢文丟給 GPT 校稿,以下是校稿後的版本。
這篇講得蠻好的。
針對inference寫點補充
inference 並不代表 NVIDIA
就會失去優勢,
我反而認為它目前仍然是
最大的受益者,
至少短中期如此。
原因有幾個:
第一,
CUDA 生態系的護城河,
比很多人想像的大得多。
現在幾乎所有主流
inference optimization,
都是先支援 CUDA。
例如:
vLLM
SGLang
TensorRT-LLM
FlashAttention
DeepEP
NCCL
CUTLASS
這些幾乎都是圍繞
CUDA 生態發展。
尤其 vLLM,
目前 GitHub 已經超過
6 萬顆 Stars,
是目前 LLM inference
最主流的 serving framework。
SGLang 近一年成長也非常快,
GitHub 也已經累積
萬級以上 Stars。
兩者最成熟、
效能最好的 backend,
都仍然是 NVIDIA GPU。
AMD ROCm、
Google TPU、
Intel Gaudi
並不是不能跑,
而是整個開源社群、
最佳化工具、
除錯經驗、
以及第三方套件,
都還遠遠比不上 CUDA。
真正做 production inference
的團隊,
會知道 migration 的成本,
其實非常高。
現在所有垂直AI 應用層 都是用上面框架去優化老黃GPU搭配自家模型
第二,
大規模 Data Center
的系統能力,
目前 NVIDIA
仍然領先。
單張 GPU
已經不是重點。
真正困難的是:
幾百到幾千張 GPU 的互連
NVLink / NVSwitch
Collective Communication(NCCL)
機櫃散熱
Power Delivery
Burn-in、Pressure Test
長時間穩定運行
這些不是只賣晶片,
而是整個 AI Factory。
目前真正能把
數千張 GPU
做到高利用率、
穩定運作,
並提供完整
軟硬體解決方案的,
NVIDIA
仍然是最成熟的玩家。
所以我比較同意的是:
Training 的黃金年代
可能正在結束,
但 Inference 的黃金年代,
才剛開始。
只是 NVIDIA 的優勢,
已經不是只有 CUDA,
而是整個
software + networking +
systems + datacenter integration
的完整生態。
至於記憶體,
我也認同需求
還會繼續增加。
只是如果未來 Frontier Lab
不再用「軍備競賽」的方式
瘋狂搶產能,
而是由擁有大量 RPO
(Remaining Performance Obligations)
的 CSP(Cloud Service Provider)
依照實際需求採購,
那麼 HBM 的供需
仍然會很強,
但過去那種因為恐慌
而產生的溢價,
確實有可能
逐漸收斂。
反而像台積電,
我認為受影響
相對較小。
不管是 pre-training、
post-training,
還是 inference,
大部分高階 AI Accelerator
最終還是要依賴
先進製程。
AI 算力需求
即使從 training
轉向 inference,
本質上仍然離不開
台積電。
因此如果市場
因情緒一起修正,
台積電反而可能是
受錯殺程度
較高的一方。
※ 引述《breathair (拆了?簡單了)》之銘言:
: ※ 引述《soga0806 (巴歐薩給路嘎)》之銘言:
: : 如題
: : 七巨頭不是狂支出砸基建嗎
: : 怎麼不到一個月
: : Meta跳出來說算力過剩
: : 還可以租給別人了
: : 真的假的啊?
: : 鏟子股天花板快到極限了嗎
: : ----
: : Sent from BePTT on my iPhone 11
: 我覺得對一半
: 1. Meta 不是CSP,但他AI採購了CSP規模的資本開支
: 原因無他,想要自己訓練模型
: 把關鍵(智力)握在自己手上
: 2.AI的訓練算力需求見頂,過剩下滑
: 越來越多人將發現
: 模型不是堆算力就好
: 你不會訓練模型,再多算力就是搞不起來
: 訓練市場將迎來史詩級崩盤
: CapEx 將縮小至只有CSP業者為了滿足RPO才會瘋狂每年大幅成長
: 奇怪xAI不是演過一輪了,怎麼這次Meta動靜這麼大?
: 3. 訓練市場退燒,推理市場剛剛開始
: 生死級別的軍備競賽結束了
: 你7巨頭誰也別擔心被那家顛覆
: 頂級AI模型目前掌握在OA兩家
: 需要牛奶,買牛奶(token)就好
: 不需要買一頭牛
: 以此推演
: NVDA受傷最重
: CUDA的優勢在訓練。一轉移到推理市場,那可是百家爭鳴
: 記憶體次之
: 推理同樣強需求的記憶體
: 問題在此次競價式的漲價模式
: 需要溢價搶產能的玩家退到手握RPO的CSP,誰需求多,誰需求少都容易掐指一算
: 只要不是軍備競賽式的搶
: 這部分的溢價會被影響到
: 而這部分的溢價可能已經被反應了
: 要回吐了
: 台積電機會不影響
: 訓練到推理。離不開台積電
: 應該屬於錯殺成分最大
: 有子彈的我覺得是好時機
: -----
: Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.37.67.135 (美國)
※ 作者: LDPC 2026-07-03 07:59:55
※ 文章代碼(AID): #1gHljzJH (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1783036797.A.4D1.html
※ 同主題文章:
07-02 22:23 ■ [請益] 算力需求到底是缺還是快飽和了?
07-03 05:00 ■ Re: [請益] 算力需求到底是缺還是快飽和了?
● 07-03 07:59 ■ Re: [請益] 算力需求到底是缺還是快飽和了?
07-03 10:38 ■ Re: [請益] 算力需求到底是缺還是快飽和了?
07-03 14:24 ■ Re: [請益] 算力需求到底是缺還是快飽和了?
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:02:34
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:25:46
AWS Trainium, Google TPUs, and NVIDIA GPUs.
上面是人類學的官方啊 人類學也有用到Nvidia GPU
再加上垂直AI全部都用老黃啊 醫療法律會計電影 狗家雲端利潤狂上漲就是
這些垂直AI跟他租Nvidia GPU/Corewave財報也是狂上漲啊 我每天都在跟vllm打架啊
OpenAI 在今年的基礎設施規劃中提到,將新增 3GW 專用 inference capacity,
建立在 NVIDIA Vera Rubin
比方說Harvey 這家AI就是搞律師AI 造成美國初階律師大量失業
https://reurl.cc/X2OQ1D 他就是用Nvidia 去蓋Agent環境
就能暴漲 我算力小隊現在只買蘇媽 老黃就是190以下買 i皇不買
以及針對人類學 有人推算過他們大概在inferece
還有30%左右是來自NVidia
openai這邊敘述也不太對啊
https://extrapolator.ai/2025/10/12/openais-trillion-token-titans/
openai to-B也是有很多營收來自vertical AI 這些 尤其是Trillion token 俱樂部
在2026年初 OpenAI有說過自己Entrprise已經佔總營收40% 現在ToC 利潤太低
現在已經是 賺一個用戶20美金一個月 不如賺一個醫生/律師1000美金一個月使用費
https://reurl.cc/R2K879 現在所有AI都是瞄準To-B 哪來的沒盈利
目前openai 比人類學佔優勢就是GPU數量和Infra這部分資源 openai下個bet就是醫療
目前openai arr是33B anthropic arr是47B 大體原因就是openai to-C利潤低
而openai 目前靠者codex和voice agent enterprise (GPT-Realtime-2企業版)
目前語音Agent上 openai做得比Anthropic好 (人類學沒有語音VoiceAgent企業solution)
開始有在to-B有機會挽回一波
infra之優化會反映體驗在這
https://zhuanlan.zhihu.com/p/2038687070491825312
這也是為何自幹infra優化 vs 生態圈優化infra (cuda陣營)
後者還是有一定吸引力
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 11:46:11
https://www.anthropic.com/news/higher-limits-spacex
https://reurl.cc/bdZxdy
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 12:05:48
--
推 : 好文同感1F 07/03 08:03
推 : 正2教又贏麻惹2F 07/03 08:07
推 : 但nvidia已經榨不出更高的產能3F 07/03 08:09
→ : 幹這篇整個就是GPT風, 那個超短斷句一直換行4F 07/03 08:16
→ : 真的是從哪裡學來的,看了頭好痛
→ : 真的是從哪裡學來的,看了頭好痛
推 : 感謝 AI 第一線從業人員提供的資訊6F 07/03 08:17
→ : 預訓練資料都是抖音廢文嗎7F 07/03 08:17
推 : cuda被捨棄 nv還剩下什麼 換句話說 矽晶圓走到瓶頸8F 07/03 08:19
→ : 台積電還剩下什麼
→ : 台積電還剩下什麼
推 : 感謝LDAI @@/10F 07/03 08:21
→ : 為啥校稿後排版會這麼怪 @@11F 07/03 08:22
prompt沒下好 說要照批踢踢格式排版.... 是誰污染了gpt QQ※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:25:46
→ : 始作俑者12F 07/03 08:37
推 : 就問一句 佔toB 市場大頭anthropic 推根本不用NVDA13F 07/03 08:38
→ : Nv 那一套是真的好用跟方便,付錢就能解決問題14F 07/03 08:38
→ : 你多的那一狗票東西不是錯的 只是商用根本就不用15F 07/03 08:39
→ : Anthropic 推論就兩個TPU + Trainium
We train and run Claude on a range of AI hardware—→ : Anthropic 推論就兩個TPU + Trainium
AWS Trainium, Google TPUs, and NVIDIA GPUs.
上面是人類學的官方啊 人類學也有用到Nvidia GPU
再加上垂直AI全部都用老黃啊 醫療法律會計電影 狗家雲端利潤狂上漲就是
這些垂直AI跟他租Nvidia GPU/Corewave財報也是狂上漲啊 我每天都在跟vllm打架啊
OpenAI 在今年的基礎設施規劃中提到,將新增 3GW 專用 inference capacity,
建立在 NVIDIA Vera Rubin
比方說Harvey 這家AI就是搞律師AI 造成美國初階律師大量失業
https://reurl.cc/X2OQ1D 他就是用Nvidia 去蓋Agent環境
NVIDIA Launches Next-Gen AI with Rubin, Accelerating Enterprise AI Adoption | Harvey posted on the topic | LinkedIn NVIDIA has kicked off the next generation of AI with Rubin, and Harvey is among the world’s leading AI labs, cloud service providers, computer makers ...
推 : 更正你一下 不是先進製程 是先進封裝 先進製程早17F 07/03 08:39
→ : 就達到物理極限了 現在只是換方式做而已
→ : 就達到物理極限了 現在只是換方式做而已
推 : 先進製程還沒到物理極限 下一代才是19F 07/03 08:42
→ : 99記憶卡蛙!20F 07/03 08:43
推 : 先進製程早就達到極限了,現在根本不講crital size21F 07/03 08:49
→ : 只用等效多少欺騙社會大眾,這也就是馬斯克在罵的
→ : 地方。 其實所謂的nanosheet就是在單層的3D發展元
→ : 件,未來跨層還有CFET,腦袋早就動到3D方向去了。
→ : 你可以查查台積電製程是什麼時候脫離critical size
→ : 的定義。
→ : 只用等效多少欺騙社會大眾,這也就是馬斯克在罵的
→ : 地方。 其實所謂的nanosheet就是在單層的3D發展元
→ : 件,未來跨層還有CFET,腦袋早就動到3D方向去了。
→ : 你可以查查台積電製程是什麼時候脫離critical size
→ : 的定義。
推 : 不可懷疑我大GG教 99記憶卡蛙27F 07/03 08:55
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 08:59:06推 : 老黃市占從8、9成掉到7成,市場就不願意推他了= =28F 07/03 09:00
→ : 雖然我想最終還是會來的
→ : 雖然我想最終還是會來的
推 : 台積製成要微縮 就只能往3D的CFET走30F 07/03 09:01
→ : 反正不管哪一家 微縮到後來就是蓋大樓
→ : 其實我覺得最終問題應該還是在於發熱處理
→ : 熱都堆積在3D結構中 怎麼導出來
→ : 反正不管哪一家 微縮到後來就是蓋大樓
→ : 其實我覺得最終問題應該還是在於發熱處理
→ : 熱都堆積在3D結構中 怎麼導出來
→ : 教主的AMD怎麼辦34F 07/03 09:03
@@買啊 inference時代 會有很多玩家 AMD好處就是現在市值低 每吃個老黃5%市場就能暴漲 我算力小隊現在只買蘇媽 老黃就是190以下買 i皇不買
→ : 不過不過你半導體股票怎麼買GG的確是不可質疑的歸35F 07/03 09:03
→ : 宿
→ : 不過不管
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 09:06:25→ : 宿
→ : 不過不管
推 : cd還能再縮半次一次 沒了 可以去看看sem 有縮小 等38F 07/03 09:06
→ : 效歸等效
→ : 效歸等效
推 : 錯殺也是殺 把貪狗洗下車40F 07/03 09:07
推 : 不可能!GG IS OVER!41F 07/03 09:21
→ : 老實說卡哇毛利那麼高了 還只賺這樣才是崩的原因啦
→ : 長期給60%毛利 EPS要會被殺多少?
→ : 產能變3倍 EPS才跟現在一樣 還要掏一堆現金扛折舊
→ : 而且DRAM/NAND標準品長期會有60%毛利??
→ : 那GG毛利拉到75%都不意外
→ : GG算什麼小隊啊? 不幸小隊嗎QQ
→ : 老實說卡哇毛利那麼高了 還只賺這樣才是崩的原因啦
→ : 長期給60%毛利 EPS要會被殺多少?
→ : 產能變3倍 EPS才跟現在一樣 還要掏一堆現金扛折舊
→ : 而且DRAM/NAND標準品長期會有60%毛利??
→ : 那GG毛利拉到75%都不意外
→ : GG算什麼小隊啊? 不幸小隊嗎QQ
推 : 00631L DRAM NVDA AMD 全打包48F 07/03 09:31
推 : Amd Yes!!49F 07/03 10:09
→ : 巨頭手下留情呀,留口飯給軟工QQ
→ : 巨頭手下留情呀,留口飯給軟工QQ
推 : Anthropic 當然也有用NVDA訓練用,推理部分NVDA比例51F 07/03 11:08
→ : 低很多,原因是AWS GCP 有成本更低的trainium TPU
→ : hyperscaler的毛利更好,況且Anthropic工程師有針對
→ : 兩個ASIC架構寫底層的kernel 像是NKI for trainium
→ : 大多數美國前1000企業 一定是用hyperscaler 上面部
→ : 你說OpenAI用NV本來就不是新鮮事,但他TOB 營收輸
→ : 還沒有盈利能力,還是要看頭部營利企業,採用的模式
→ : 有營利才能產生正向現金流,繼續擴大資本開資
→ : 低很多,原因是AWS GCP 有成本更低的trainium TPU
→ : hyperscaler的毛利更好,況且Anthropic工程師有針對
→ : 兩個ASIC架構寫底層的kernel 像是NKI for trainium
→ : 大多數美國前1000企業 一定是用hyperscaler 上面部
→ : 你說OpenAI用NV本來就不是新鮮事,但他TOB 營收輸
→ : 還沒有盈利能力,還是要看頭部營利企業,採用的模式
→ : 有營利才能產生正向現金流,繼續擴大資本開資
以及針對人類學 有人推算過他們大概在inferece
還有30%左右是來自NVidia
openai這邊敘述也不太對啊
https://extrapolator.ai/2025/10/12/openais-trillion-token-titans/
OpenAI’s Trillion-Token Titans – Extrapolator AI
OpenAI revealed at DevDay 2025 that 30 companies, including giants like Salesforce, Shopify, and Duolingo, have each processed over one trillion token ...
OpenAI revealed at DevDay 2025 that 30 companies, including giants like Salesforce, Shopify, and Duolingo, have each processed over one trillion token ...
在2026年初 OpenAI有說過自己Entrprise已經佔總營收40% 現在ToC 利潤太低
現在已經是 賺一個用戶20美金一個月 不如賺一個醫生/律師1000美金一個月使用費
https://reurl.cc/R2K879 現在所有AI都是瞄準To-B 哪來的沒盈利
目前openai 比人類學佔優勢就是GPU數量和Infra這部分資源 openai下個bet就是醫療
目前openai arr是33B anthropic arr是47B 大體原因就是openai to-C利潤低
而openai 目前靠者codex和voice agent enterprise (GPT-Realtime-2企業版)
目前語音Agent上 openai做得比Anthropic好 (人類學沒有語音VoiceAgent企業solution)
開始有在to-B有機會挽回一波
infra之優化會反映體驗在這
https://zhuanlan.zhihu.com/p/2038687070491825312
這也是為何自幹infra優化 vs 生態圈優化infra (cuda陣營)
後者還是有一定吸引力
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 11:46:11
→ : Anthropic租的xai全都是NV,不用NV的是哪個平行宇宙?59F 07/03 11:48
對 這邊有細節在infernece增益多少tokenshttps://www.anthropic.com/news/higher-limits-spacex
Higher usage limits for Claude and a compute deal with SpaceX \ Anthropic We’ve raised Claude's usage limits and agreed a new compute partnership with SpaceX that will substantially increase our capacity in the near term. ...
※ 編輯: LDPC (98.37.67.135 美國), 07/03/2026 12:05:48
推 : 固態電子的老人看不懂,但是直覺樓主有料,推一個60F 07/03 12:42
推 : GPT是吃到誰的廢文風 還是因為廢文太多被訓練成這樣61F 07/03 12:45
推 : 老黃最好用,但沒有巨頭想被老黃75%毛利綁死,這就62F 07/03 13:41
→ : 造成老黃不能擠牙膏,要每年都做激進技術升級,這
→ : 又會回推各家asic生態系跟著跑起來。與其去猜究竟
→ : 是gpu還是asic贏,不如去看他們技術競爭究竟在哪些
→ : 領域,去年底來看高速互聯跟電源是明確的競爭項目
→ : ,也確實在今年噴了超大一段
→ : 造成老黃不能擠牙膏,要每年都做激進技術升級,這
→ : 又會回推各家asic生態系跟著跑起來。與其去猜究竟
→ : 是gpu還是asic贏,不如去看他們技術競爭究竟在哪些
→ : 領域,去年底來看高速互聯跟電源是明確的競爭項目
→ : ,也確實在今年噴了超大一段
推 : 謝謝大大無私分享68F 07/03 13:49
--
※ 看板: Stock 文章推薦值: 0 目前人氣: 0 累積人氣: 85
作者 LDPC 的最新發文:
- 45F 17推 1噓
- QQ先 disclaimer 一下。 剛剛把自己寫的廢文丟給 GPT 校稿,以下是校稿後的版本。 這篇講得蠻好的。 針對inference寫點補充 inference 並不代表 NVIDIA 就會失 …68F 23推
- @@今天寓言能用了 這個訊號就是記憶卡哇反攻之日啊啊 早上dram 抄得滿手血 hbm這玩意沒這樣好取代的 高速坪寬記憶體在大算力 容易過熱等現象 只有幾家有這技術 這玩意就是壟斷 狗家最近deep …61F 28推
韓國跟台灣資源分配就不一樣啊 光是醫療來講 重症一定都想去首爾醫院看病 所以買房都是瞄準首爾幾個地點 首爾雖大 但也不是每個地方都很熱門 像仁川這地方就是中國朝鮮族住的 之前2023房價都直接腰斬 …171F 48推 1噓- SK 集團主席是崔泰源 當初去把總統女兒 所以才能靠國家力量吃下電信市場 SK電信就是對標中華電信業 底下集團的海力士CEO是外聘的 CEO 郭魯正 是他獎勵獎勵員工、利潤共享 明年上看分紅每位員工 …52F 33推 1噓
點此顯示更多發文記錄
→
guest
回列表(←)
分享
