顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2024-03-01 12:01:13
看板 Stock
作者 waitrop (嘴砲無雙)
標題 Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售
時間 Thu Feb 29 11:38:32 2024


你劃錯重點,
先不論這篇論文的可行性與實用性,
你真的劃錯重點了

算力重要嗎?
重要但是不是影響販售/採購晶片的主因,
這個年代是用軟體思考的年代,
有兩個軟體方面的主因是AI晶片的關鍵:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch

很多人嗆我說廢話,
但是很多人卻是連廢話都不懂,
LLM 全名叫做 "Large" language model,
都已經叫做Large 了,
還放在最前面以表示重要性,
所以能夠處理"Large" 模型的能力 遠比算力重要的多,
這篇文章有圖形解釋cpu vs gpu vs tpu的差別,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿這三者來比較算力是很蠢的事情,
這三者的算力彼此之間個差了十倍到百倍的差距,
比方說我有一大串數字/資料要做運算,
cpu 必須每個數字/資料做運算之後相加減,
gpu 把數字/資料放進兩個矩陣一次就算完,
tpu 直接把算法設計成硬體邏輯,
數字/資料放進tpu可以直接得到結果,

所以你看出問題了嗎?
當你的資料與模型太大 會塞不進去矩陣 (v-ram),
同樣的道理,
資料與模型太大 會塞不進去tpu裡頭 (v-ram),
現代化的AI 瓶頸已經從算力提升到模型太大,
而這就是NVDA 厲害的地方,

一顆GPU v-ram 不夠塞進資料與模型,
沒關係, NVDA 把GPU 串連起來,
數百萬顆的GPU 串連 v-ram提升數百萬倍,
總可以塞進資料與模型來運算了吧,
請參考"電池串連"原理 就可以了解我在說什麼

TPU 原本把算法設計成硬體邏輯是個優點,
但是在串連運算上面卻成了缺點,
矩陣運算可以串連串起來運算,
邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現,
所以TPU 被綁在自身v-ram 的大小限制上面,
太大的模型與資料無法放進v-ram 就無法運算,
不過還是有解決方法,
這邊就不多說了

所以算力重要嗎?
在LLM 面前 真的不是最主要的考量

2. CUDA 版上吵翻天了,
不需要多說了,
你算力就算能比NVDA快上萬倍,
你也要能夠繞過CUDA 再說,
更何況算力有沒有比較快都很難說


※ 引述《oopFoo (3d)》之銘言:
: 千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。
: 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。
: 這次AI浪潮,應該也是類似。
: N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。
: 但最近一些AI的發展,也許會發現,這些Compute是不需要的。
: Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
: Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的論文,可能是真的翻天覆地的開始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的討論。
: 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。
: 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits)
: 然後本來是fp dot product的只要int add。
: 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善?
: 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。
: 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)
※ 作者: waitrop 2024-02-29 11:38:32
※ 文章代碼(AID): #1bt_mwxv (Stock)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html
pmes9866    : 好的 歐印TQQQ1F 02/29 11:40
leochen124  : 謝謝分享2F 02/29 11:41
poisonB     : 何必跟一知半解的認真3F 02/29 11:44
Aska0520    : 感謝分享 ALL IN NVDA4F 02/29 11:44
kid1a2b3c4d : 講中文啦QQ5F 02/29 11:44
aimlikenoob : 問就是買6F 02/29 11:45
tctv2002    : 嗯嗯 跟我想的一樣7F 02/29 11:48
fatb        : 閱8F 02/29 11:49
rkilo       : 謝分享9F 02/29 11:51
sam90205    : 何必認真看到那篇論文的產地就可以end了.10F 02/29 11:52
kducky      : 00757會漲嗎0.011F 02/29 11:55
roseritter  : 推.  硬體受限情況下 只能從其他地方突破惹12F 02/29 11:55
ab4daa      : 歐印TQQQ13F 02/29 11:55
a069275235  : 樓下幫我看一下這一大篇有沒有股點14F 02/29 11:55
GPU => NVDA
vram => hbm => MU
switch => AVGO
包牌 => QQQ
roseritter  : 中國的HBM不知道何時商業量產15F 02/29 11:55
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09
Altair      : 豪!!!    所以要歐印誰?16F 02/29 11:56
kausan      : 所以沒有比cuda更屌的東西你還是要舔nv17F 02/29 11:57
有比cuda更屌的東西,
但是掌握在七巨頭手上

a069275235  : 感恩明牌 五星推!18F 02/29 11:58
abc21086999 : 我記得原Po是在G工作的FTE19F 02/29 11:59
j65p4m3     : 好窩歐印20F 02/29 11:59
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04
esproject   : 幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋21F 02/29 12:04
leoloveivy  : 但如果要tpu 一定是port一個可以的model v-ram加上22F 02/29 12:06
leoloveivy  : 去面積大 價錢還是比H100划算吧嗎
lonzoball02 : 繞過去就好了24F 02/29 12:06
iamjojo     : 推解釋 這我看得懂25F 02/29 12:11
minikai     : 問就是TQQQ26F 02/29 12:12
WTF55665566 : 那文就是裝逼拐個彎吹支那或成最大贏家而已27F 02/29 12:14
WTF55665566 : 欠打臉
TheObServer : 請問什麼東西比庫打還猛?29F 02/29 12:15
CUDA 是最底層的軟硬體介面,
提供軟體(寫程式)得到硬體加速的效果,
但是Google 的Tensorflow,
以及Meta/Facebook 的Pytorch,
是建構在CUDA 之上的python API 套件,
現在已經很少人直接寫CUDA,
大部分的人都用pytorch or tensorflow,
我個人的經驗是pytorch 比較容易,
tensorflow 比較底層比較複雜,
但是相對的tensorflow 提供更強大與更自由的設計功能,
不論是Google or FB,
tensorflow or pytorch,
在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速

JKjohnwick  : 中國的科技業不是只能代工跟抄襲嗎30F 02/29 12:16
AndyMAX     : switch ==> Nintendo31F 02/29 12:17
TheObServer : 不會是量子電腦吧32F 02/29 12:17
subi        : 現在好像開始談LPU了33F 02/29 12:18
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48
motan       : 好,結論就是輝達強暴了34F 02/29 12:21
ymlin0331   : 包牌是TQQQ啦35F 02/29 12:21
fmp1234     : 關鍵就是要 大36F 02/29 12:27
truelove356 : NV不是要搶AVGO的地盤37F 02/29 12:29
csluling    : 本來就是,不然一直在衝v-ram幹嘛,一堆北七一直在38F 02/29 12:30
csluling    : 講算力瓶頸
zoze        : AMD能分一杯羹嗎40F 02/29 12:30
csluling    : 出新卡建新機就是一直在關注v-ram多大才知道能跑多41F 02/29 12:31
csluling    : 大模型
ppuuppu     : 讚讚43F 02/29 12:32
csluling    : 不過pytorch不算是繞過CUDA吧,頂多說可以對硬體有44F 02/29 12:33
csluling    : 指哪算哪效果吧?
pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic,
就可以繞過cuda,
但是自家的那套東西不對外販售
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:35:18
Ashand      : SOXX46F 02/29 12:35
leochen124  : 所以現在新創都在做inference的加速嗎47F 02/29 12:36
是的,
新創 training 玩不起,
除了openai夠錢也夠名聲能夠玩training

另外,
inference 尤其是 edge AI 會是下一個戰場,
只是我不知道居然來的這麼快,
我原本估計要兩三年後才會到來

LieTo       : 繞過CUDA的意思是也可以不用NV的晶片嗎?48F 02/29 12:36
是的,
但是目前只有七巨頭五仙女有能力繞過cuda
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:39:17
easyman     : 這篇論文其實是-1,0,1 ,  其實應該很適合整合在50F 02/29 12:37
easyman     : flash TLC上面。 或者 三檔電壓的RAM上面。  如果
easyman     : 放在FPGA上,就是2bit 加法器。
LimYoHwan   : 快一倍走了 韭菜套滿手 割肉再進去53F 02/29 12:37
leochen124  : 現在應該是還有那些國家的LLM的sever還沒被滿足,才54F 02/29 12:38
leochen124  : 能確定有沒有overbooking
cowaksor    : 好的信貸加質押tqqq56F 02/29 12:40
Lipraxde    : Edge inference 到處都在推,簡直殺紅眼了XD57F 02/29 12:46
smallcheng  : AMD除了價格優勢,在技術上有什麼優勢跟著NV喝湯嗎58F 02/29 12:46
Fww         : 推你認真,下面那篇真的不知在幹嘛59F 02/29 12:47
TsmcEE      : 包牌不應該是tqqq嗎60F 02/29 12:50
energyy1104 : 個人認為真正的護城河是NVLink跟NVSwitch61F 02/29 12:52
pponywong   : Edge side只可能做inference阿62F 02/29 12:52
energyy1104 : CUDA的重要性恐怕還要排在這兩個後面63F 02/29 12:52
pponywong   : 另外training的成本也很大 不可能繞過去64F 02/29 12:53
pponywong   : 目前openai 是用富爸爸的azure data center
s90002442   : 結論: 單押g66F 02/29 12:53
pponywong   : 你要搞模型 你還是要花錢買NPU(TPU)或是GPU67F 02/29 12:54
william85   : 推68F 02/29 12:55
Gipmydanger : 推69F 02/29 12:55
pponywong   : 除了谷歌的TPU 目前只有微軟說要自己做 下單給牙膏70F 02/29 12:56
pponywong   : 其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片
sdbb        : 拜託別刪,謝謝72F 02/29 12:57
LDPC        : 狗家忘了下車 嗚嗚嗚嗚 99狗家 QQ73F 02/29 12:58
pponywong   : 另外就原Po講的 AI model會越來越大 你圖形辨識跟74F 02/29 13:02
pponywong   : GPT到現在Sora的模型 不是同一個量級的增長
pponywong   : 你要進入到下一個階段的AI 你就只能繼續擴大算力
pponywong   : 可能Sora需要30萬張H100 下一個AI就需要100萬張
pponywong   : 然後這些training是沒辦法繞過的 你要進場玩 你就只
pponywong   : 能花錢
clamperni   : 基本麵吃起來80F 02/29 13:05
yiefaung    : TPU也有TPU pod好嗎…81F 02/29 13:06
leochen124  : 請問inference就不用把整個大模型放到vram嗎82F 02/29 13:07
LDPC        : 樓上 用切的QQ 參照Model parallelism83F 02/29 13:14
LDPC        : 所以gpu之間通訊速度很重要 這是老黃的大招
LDPC        : 4090有等效A100算力 但4090多卡之間通訊太慢
ohmypig     : 請問原po 對Alphawave IP 這家的看法? 傳輸速度會86F 02/29 13:15
ohmypig     : 是下一個gating 嗎?
leochen124  : 謝謝L大解說88F 02/29 13:16
LDPC        : https://zhuanlan.zhihu.com/p/10710172789F 02/29 13:17
Samurai     : 我廢物只想知道要歐印哪隻90F 02/29 13:21
ProTrader   : 原po說的內容外行人可能真的搞不董"大型"91F 02/29 13:22
tchen4      : 看不懂 先給推92F 02/29 13:22
csluling    : 原po跟L大都好心人93F 02/29 13:23
ProTrader   : 用生活中的東西來說  台鐵高鐵都是大型94F 02/29 13:23
ProTrader   : 但是台鐵高鐵的速度差異很明顯
zhi5566     : Waitrop發一篇文 我就買一些TQQQ96F 02/29 13:24
ProTrader   : 如果你家有超跑  跑的比高鐵快  那還是迷你型沒用97F 02/29 13:24
clisan      : 謝謝說明98F 02/29 13:24
usb4        : TPU好像可以串連了? google上次說training用自家TPU99F 02/29 13:25
xm3u4vmp6   : 超低延遲 網卡直連暫存器 這樣才能擴展100F 02/29 13:25
ProTrader   : 我記得在10多年前流行大數據的時候開始有"大型"101F 02/29 13:26
ProTrader   : 現在的大型需求真正變的火熱
dongdong0405: NVDA真的是安心買,未來它的saas 會越賺越多103F 02/29 13:28
ctes940008  : 歐印104F 02/29 13:29
Alwen       : 看到sora橫空出世,我只覺得老黃infiniband贏麻惹105F 02/29 13:31
pponywong   : GPU之間的溝通速度 就是AVGO(博通)的強項了106F 02/29 13:31
Alwen       : 以後都是要求串連數十萬顆起跳107F 02/29 13:32
stlinman    : v-ram就是關鍵啦! 串連效益/成本就NV最高,其他怎麼108F 02/29 13:32
stlinman    : 怎麼打?
pponywong   : 所以AI5才有AVGO 他是專門做傳輸ASIC的110F 02/29 13:32
stlinman    : 老黃說買越多省越多不是在騙人的!111F 02/29 13:32
ProTrader   : 原po說的兩點也是教主說的老黃包圍網的成敗因素112F 02/29 13:33
ProTrader   : 只要這兩點不突破包圍網就徒勞無功老黃繼續統霸天下
horb        : 感謝分享114F 02/29 13:37
LDPC        : 所以蘇媽才要跟AVGO聯手啊蘇媽就是需要個"amd link"115F 02/29 13:39
pponywong   : 真的怕就買台積就好 我是覺得NVDA的護城河非常深116F 02/29 13:39
LDPC        : 蘇媽+何國源資產+VictorPeng+陳福陽 打老黃117F 02/29 13:40
LDPC        : 旁邊吃瓜看戲 QQ順便可以看彼此策略攻防戰
pponywong   : AVGO的Tomahawk5 應該是市面上唯一800G 的switch ic119F 02/29 13:41
Alwen       : 黃董手都伸到saas惹,進度真的很快120F 02/29 13:44
ejnfu       : NVDA AMD QQQ全買就好121F 02/29 13:44
stlinman    : 老黃把供應鏈都綁樁顧好了!   其他家想追上先不考慮122F 02/29 13:47
stlinman    : 技術成本能不能追上,光是產能卡不卡的到都是問題!
leoying     : 推一個 解釋的很清楚124F 02/29 13:49
leoying     : 不太懂為什麼AMD要找avgo合作,它自己不是有Xilinx.
s987692     : PyTorch+rocm就饒過cuda了126F 02/29 13:55
donkilu     : 你要每個廠商各自做自己的TPU driver compiler SDK127F 02/29 13:55
donkilu     : 還只能自家內部用用 這樣搞到最後有比較省嘛...
joygo       : 現在問題就是真的能讓ai 突破的是學者吧,不是工程129F 02/29 13:57
joygo       : 師,好用,用習慣才是重點
donkilu     : 如果是成熟準備上線的產品還好說 現在軍備競賽階段131F 02/29 13:57
donkilu     : 如果自家晶片研發不順 把軟體研發拖垮豈不是更慘
donkilu     : 大廠多少還是要買雙保險
我待過四五間中美科技巨頭,
這些AI伺服器我在十年前就在研發,
中美檯面上的AI伺服器很多我都有參與研發過,
當年跟這幾家公司的高層開會的時候,
就有討論過這個問題,
答案是NVDA 賣太貴了,
自研不只是為了2nd solution,
也是因為自研再怎麼花錢都比買NVDA 便宜,
然後你又搶不到足夠的NVDA GPU,
所以能夠自研能夠用asic tpu 等方式的就盡量用,
不能用的應用再買NVDA GPU,
對於search, youtube, 天貓掏寶, amazon search, facebook image/vedio等等,
需求量夠大,
自研絕對省很多

jagger      : 推134F 02/29 14:01
zhi5566     : AVGO到底還可不可以買啊135F 02/29 14:06
LDPC        : http://tinyurl.com/2znsvsxa QQ 旁邊看戲136F 02/29 14:06
LDPC        : 我有買AVGO
zhi5566     : AVGO除了技術強 CEO更強 有其他風險嗎138F 02/29 14:07
zhi5566     : 是不是無腦AI5 就可以
leoying     : 我還真的只有買AI5, 連QQQ都不想買140F 02/29 14:13
rebel       : TQQQ王 以後可以不要隨便砍你自己的文章嗎 文章是141F 02/29 14:13
rebel       : 你的 但下面很多推文很有參考價值 我印像中我的推
rebel       : 文就砍了至少三次 實際上應該是更多 尊重一下推文
對不起!
因為我常常會不小心講話得罪人,
所以看到有人對我的發言很有意見感覺又得罪人了,
就乾脆刪掉免得惹麻煩,
我下次不會再刪文了,
抱歉!

AoA1        : 好文144F 02/29 14:14
kducky      : 有時候是編輯文章同時推文被吃掉吧?145F 02/29 14:14
zhi5566     : 50% qqq/tqqq+ 50% AI5 洗頭+局部加強?146F 02/29 14:15
kis28519    : 推147F 02/29 14:17
rebel       : 不是 他是整個文章砍掉148F 02/29 14:19
goldmouse   : 看完了 所以要買那隻149F 02/29 14:21
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 14:41:24
wst24365888 : 推150F 02/29 14:37
LDPC        : 有時真的得砍文 我也常砍 因為有時講太多業界的151F 02/29 14:40
LDPC        : 會讓自己也有點麻煩 像果家就在這方面抓很嚴格QQ
roseritter  : 所以我都手動備分XD153F 02/29 14:42
roseritter  : 關鍵有時在推文  點一下 就會有更多想法
LDPC        : TQQQ王是好人QQ 我周遭同事沒人上批踢踢講業內事情155F 02/29 14:42
truelove356 : AVGO漲最少156F 02/29 14:45
ru04hj4     : 看完只看到包牌 QQQ157F 02/29 14:45
meaa3       : 弱弱地問七巨頭五仙女是指???158F 02/29 14:49
ProTrader   : 我還以為你是手動砍文是為了低調  因為說太多159F 02/29 14:50
moonshade   : tpu也可以設計成可以解hierarchical問題的160F 02/29 14:56
strlen      : 是擔心歐美cancel culture嗎?唉161F 02/29 15:03
johnlin35   : 推162F 02/29 15:08
thomaspig   : 推163F 02/29 15:11
rebel       : 好啦 我也說了文章畢竟是你發的 你還是有砍文的權164F 02/29 15:12
rebel       : 力 只是很多推文很有幫助 不希望回來要找找不到 折
rebel       : 衷也許你就編輯 把你的部份不適合的砍掉就好 供參
stosto      : CPU怎麼會在你比較清單上167F 02/29 15:16
因為前面推文有提到用CPU就可以,
我拿CPU來比較只是想說根本不可能用CPU算AI,
oopFoo      : GPU做inference。普通CPU就可用了,這是關鍵。168F 02/29 09:44

stosto      : Tpu 的問題就是硬體已經作死了,應用面變成侷限在169F 02/29 15:19
stosto      : 某些問題上,超出這些問題就不能用了
ca1123      : 推TQQQ王171F 02/29 15:22
vlstone     : 推分享 謝謝172F 02/29 15:23
marke18     : 推~~173F 02/29 15:30
richaad     : https://i.imgur.com/9n1nQ3w.jpg174F 02/29 15:34
richaad     : 看看cuda 這個量級,後者要追上至少5年以上
[圖]
我不知道為何AMD 要推ROCm,
OpenCL 是 open source,
已經累積很多的成果以及CUDA 轉譯,
不懂為何不繼續OpenCL

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:36:24
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:39:56
ProTrader   : 可能是AMD為了自研市場布局嗎?   因為便宜就有市場176F 02/29 15:48
ProTrader   : 然後蘇媽想要把自研整個吃下來?
metallolly  : 有文科翻譯機可以翻譯一下嗎178F 02/29 15:52
smallmac    : 大家有注意到Meta找陳陽福去當Board Member嗎?一兩179F 02/29 15:54
smallmac    : 週前的新聞
smallmac    : Sorry 是陳福陽
教主說的NVDA 包圍網裡頭最積極的應該是Meta 組博客,
也可以理解,
他畢竟是臉書創辦人,
是真的對臉書有感情的,
第二積極的是微軟與AMD蘇大媽,
至於其他的七巨頭專業經理人CEO 都自身難保或是志不在幹大事,
尤其某公司的CEO,
敵人就在本能寺 (公司總部), 不在NVDA
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:01:42
roseritter  : 你就是在酸狗家XD182F 02/29 16:24
a000000000  : 他那葛paper也有講vram需求會變小很多  模型越大差183F 02/29 16:30
a000000000  : 越多  好像號稱70b的可以差到40倍
roseritter  : 問個不專業問題 V-RAM大小跟成本正相關可以理解185F 02/29 16:31
roseritter  : 那設計之初 就把記憶體放大某個安全係數 相較於總
a000000000  : 他那東西關鍵來來去去還是training沒講有省187F 02/29 16:32
a000000000  : 現狀4能train大model的地方沒幾葛  尼要大家都用尼
a000000000  : 那套  那也要資源夠多當side project
roseritter  : 成本 V-RAM還是比較便宜的吧 我看蘇嬤的同級產品190F 02/29 16:33
roseritter  : v-ram都刻意比N社大
我個人看法,
vram 放越大成本越高,
蘇媽同等級vram 都比N大我也有發現,
所以蘇媽的毛利比老黃低呀!
以老黃角度,
vram 少一點可以省一些成本, 毛利拉高,
而且可以變相讓買家多買一些gpu,
反正目前市場是有在賣AI 晶片的就他一家,
其他的都不成威脅

而且沒有記憶體安全係數這種東西,
因為模型大到一顆GPU一定裝不下

a000000000  : 省bit的東西印象中ai剛流行就一堆人搞惹  起碼10+年192F 02/29 16:34
a000000000  : 有些東西變成標準  tf32 tf16 bf16那些的
a000000000  : 標準要那些大公司才推得動
a000000000  : 如果只是想湊葛asic概念  去賭的小公司一堆死惹
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:43:53
a000000000  : 尼對vram的理解就錯惹196F 02/29 16:47
a000000000  : 單卡vram夠大  單卡可以跑的模型就大
"單卡vram夠大  單卡可以跑的模型就大", 沒錯,
但是在LLM面前,
vram 再怎麼大單卡都塞不下, 數量級完全不同

a000000000  : 像tpu v5那種單顆16G然後拉一堆光纖對連的方案就很198F 02/29 16:48
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:50:03
a000000000  : 慘   因為那種link的pJ/bit大概是cowos的幾十倍199F 02/29 16:49
a000000000  : 簡單講人家單卡塞的下的狀態功耗優勢明顯
FMANT       : 所以要不要繼續捏NVDA????201F 02/29 16:51
FMANT       : 就這個問題
a000000000  : 蘇媽的192夠塞那種70b惹  而且70B也很多夠用惹203F 02/29 16:53
a000000000  : 我覺得那種Tb級的下代model跑起來成本也不低
a000000000  : 市場可能會先慢慢消化gpt4等級的應用
fancydick501: hbm是mu喔 還以為是韓國那兩家206F 02/29 17:48
xoy232      : 這篇給推 NV要爆噴了207F 02/29 17:52
KrisNYC     : 爆一爆吧 基礎邏輯大家都應該有 目前cuda硬解不可避208F 02/29 18:09
KrisNYC     : 有能力搞底層繞過cuda相關運算法則的都是巨頭
lavign      : colab選TPU跑深度學習超級慢210F 02/29 18:28
ookimoo     : 相對很快,很強,但是沒用,下去吧電子垃圾211F 02/29 18:34
richaad     : 最近Google AI別鬧了,生成圖片一直出大包,美國國212F 02/29 18:39
richaad     : 父變黑人
oneIneed    : 不明覺厲214F 02/29 18:42
fallen01    : 遙望Cuda當年唸書就有了 寒窗十年215F 02/29 18:55
dodobaho    : 正解216F 02/29 19:09
pk655tw     : 謝謝TQQQ王願意分享217F 02/29 19:33
ymlin0331   : all in NVDA很怕被機構惡搞218F 02/29 20:02
ymlin0331   : all in TQQQ比較穩定啦
stosto      : HBM hynix一直都有,跟nv合作很久了220F 02/29 20:47
stosto      : m家是去年殺出來的
stosto      : 最近也有新聞說m家先整合進H200了
stosto      : 三星目前我所知是完全沒有
colinshih   : TPU 在做矩陣convolution, 核心的運算透過systolic224F 02/29 21:22
colinshih   :  array 執行。它基本就是將資料的時序關係投影到特
colinshih   : 定運算平面最大化運算效率。大矩陣分割在影像處理是
colinshih   : 基本問題。即便超大activation 也可以透過多個TPU
colinshih   :  協同處理。運算只在乎資料彼此關係, systolic arra
colinshih   : y 只是這些運算的不同種抽象形態表示 對應的都是同
colinshih   : 樣的matrix convolution. 差別最多在於資料流處理
colinshih   : 的差異。這種硬體架構對於邏輯設計算是基本的 只是
colinshih   : 教科書裡面的例子
ProTrader   : 樓上的說法是  TPU如何用演算法克服"大型"233F 02/29 21:50
ProTrader   : 對TPU設計廠商來說只是基本工?
ProTrader   : 類似在學校學生超大數乘法的演算法作業?
Lipraxde    : 切圖、串連再厲害,ram 不夠大就是虧啦,像武器一236F 02/29 22:06
Lipraxde    : 樣,一寸長一寸強
ProTrader   : 所以蘇媽喜歡的是那種很大很大可以一次放進去238F 02/29 22:33
ProTrader   : 所有資料的vram
pponywong   : 重點還是你vram硬體設計再大 也不可能塞得下一個240F 02/29 22:47
pponywong   : model 所以意義在哪裡
ProTrader   : 應該是以後會有 "大型" "小型" 兩種市場需求吧242F 02/29 23:02
silentneko  : 推 雖然很多看不懂@@243F 03/01 00:34
aegis43210  : LPU的成本太高了啦,塞一堆sram,哪來那麼高的良率244F 03/01 01:13
aegis43210  : 及封裝量能來玩這個,成本效益還是輸ASIC
aegis43210  : 西台灣就是有算力瓶頸才開始玩模型剪枝,等到未來各
aegis43210  : 行各業都需要AI推論時就會很有用,不過西台灣也只能
aegis43210  : 這樣玩,L20的推論只是堪用,所以配合中芯晶片的無
aegis43210  : 奈之舉
colinshih   : Protrader: 20-30年前很多應用的論文在不同領域,和250F 03/01 01:45
colinshih   : TPU 的問題基礎類似。
yumumu      : 讚252F 03/01 06:58
astroboy0   : ㄏㄏ怎麼沒有人提挖礦潮要回來,老黃又要賺兩邊253F 03/01 07:15
astroboy0   : 怎麼看都是老黃繼續輾壓,市值能多高?或是搞拆股

--
※ 看板: Stock 文章推薦值: 1 目前人氣: 0 累積人氣: 75 
作者 waitrop 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
( ̄︶ ̄)b bentw 說讚!
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇