看板 PC_Shopping
作者 newyorker54 (紐約客)
標題 [請益]兩個改裝方案跑本地LLM
時間 Wed Feb 11 10:34:27 2026



先說我的配備
CPU AMD RYZEN 9950
主板 ASUS CROSSHAIR X870E HERO
RAM Kingston furry beast ddr5 5600
32g x2
crucial pro ddr5 6000 32g x2
共128g
ssd 美光 T500 2tb
顯示卡 GIGABYTE GAMING OC 5090
GIGABYTE 4070TIS 16G
共48G VRAM
兩台螢幕用舊的不算錢
跑 GPT_OSS 120B 慢但可接受
QWEN 30B_A3B慢可接受
Deepseek 70b 更慢比gpt-oss 120b 稍快

這塊主板最高記憶體只能加到192gb,
現在128,
vram 現在48gb
因為LLM架在ollama下所以在VRAM不夠時例如在跑OSS 120B模型它會自己調用主機記憶體,速度有變慢,尤其是High thinking模式時,但是這塊板子只能插兩張顯示卡,,如果要順跑120B高思考模式,是換主板再加一張16g或32g顯示卡變成插三張卡或是換掉16g顯示卡改插rtx pro 6000前者是不是C/P值比較高?
後者成本太高,會不會兩個方案跑起來差不多?

-----
Sent from JPTT on my Samsung SM-S7110.

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.98.194 (臺灣)
※ 作者: newyorker54 2026-02-11 10:34:27
※ 文章代碼(AID): #1fY-gr0Y (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770777269.A.022.html
※ 同主題文章:
[請益] 兩個改裝方案跑本地LLM請賜教
02-11 10:34 newyorker54
※ 編輯: newyorker54 (140.116.98.194 臺灣), 02/11/2026 10:35:38
w1222067: 都有預算6000了 還需要想嗎1F 36.233.99.112 台灣 02/11 10:42
pphyy5844548: 我覺得東西一多問題比較大,換pro 60002F 39.14.17.171 台灣 02/11 10:45
lordmi: 半年前問的話你還有X99並聯主板加3090魔改卡x4這個選擇,現在就不用想了4F 223.136.121.73 台灣 02/11 10:52
GenShoku: 你只卡在120B的話6000還行,不然直上大容量mac比較實在6F 114.137.181.80 台灣 02/11 11:06
yymeow: 問題在於原PO是要跑得起來還是跑得不慢
跑得起來,用多張顯卡加上GPU layer off-load是可以上去,但是會卡PCIe還有卡對卡傳輸瓶頸。若是要順還是要上6000的卡,或是找統一記憶體的mac mini或GX10
公司用一律上6000的卡,個人的話可以用統一記憶體的解決方案8F 60.250.130.216 台灣 02/11 11:16
patvessel: 層數分割其實對於pcie頻寬的要求很低只要能塞進vram 傳輸的只有中間值就算是礦機板都可以跑的起來
只有初次載入會比較慢15F 125.229.28.82 台灣 02/11 11:22
yenchieh1102: 光華在海鮮上了一堆運算卡,你去看看,我剛看到一個VRAM 72G的鬼東西還比pro 6000便宜19F 220.134.44.227 台灣 02/11 11:24
patvessel: 真正的推理的瓶頸還是在vram頻寬
反而是統一記憶體的方案大多會在預充填階段帶來顯著的落差22F 125.229.28.82 台灣 02/11 11:25
eddy13: 5090跑30B A3B應該很快吧25F 114.137.221.213 台灣 02/11 11:29
newyorker54: 所以請問mac studio 會優於pro 6000?26F 140.116.98.194 台灣 02/11 11:29
patvessel: 不會 頻寬和算力都有落差
mac 比較像是想省電省空間的權衡方案單論性能可能還不如你直接塞第三張卡依我個人立場來說的話
現在這個狀況想初期省錢就塞第三張卡可以兼顧效能和短期錢包
缺點是供電和排熱環境可能要一起整理願意多花錢又想追求效能那就上6000
如果要極致的省空間和省電才選擇mac
但同時犧牲了核心算力效能頻寬 和生態成熟度27F 125.229.28.82 台灣 02/11 11:33
lordmi: 哪個更好取決於你的工作重心在哪 如果是訓練10億個tokens,pro6000理論上快7倍。如果是推論 最大512gb的studio 比 96gb的pro6000有用很多38F 122.116.29.245 台灣 02/11 11:43
agnme2: 5060ti*3+256gb quad _ddr4 2933路過42F 49.215.231.219 台灣 02/11 11:43
patvessel: lordmi說的有道理 我的說法是根據原PO開出的模型清單給的建議 如果想用更大43F 125.229.28.82 台灣 02/11 11:45
agnme2: 重點應該在用途,跟能忍受的速度與智商之間均衡取捨,有錢的話就沒差直接買h200_xd45F 49.215.231.219 台灣 02/11 11:46
patvessel: 的模型那前提自然不成立 可以考慮MAC但是120B的狀況下 是用不到512GB的統一記憶體的
而要是真的用到512GB的大型模型的話
MAC的頻寬又會限制推論速度
那就又回到一開始的問題了 跑得慢
花了更多錢 跑了更大的模型 但是跑得一樣慢 可能不是原PO想要的吧47F 125.229.28.82 台灣 02/11 11:46
vsbrm: 先提預算再來講效果55F 42.77.60.78 台灣 02/11 11:57
jychu1132: 不爆VRAM的話PRO 6000 CP值最高56F 36.225.79.207 台灣 02/11 11:59
promaster: 不計較預算就mac studio 512GB買齊
然後賣掉你現在這套貼補回mac studio絕大部分llm你都能跑了
速度怎樣是另外一回事57F 1.161.161.205 台灣 02/11 12:05
GenShoku: 現在一堆模型都有flash版,速度其實也不會差到不好用,但Mac統合記憶體的超大ram就是直接決定你可以使用的模型上限跟上下文長度,你如果沒那麼在意速度,以後又想跑像step 3.5這類超大模型(192B),直上Mac Studio(256G應該就夠用)會是比較實際的選擇61F 114.137.181.80 台灣 02/11 12:16
jeff85898: 不用換主板 現在Pcie 5.0 x16頻寬很夠用的
你這張板子有兩組 上拆分卡 可以裝4卡Pcie4.0x16不損效能68F 111.246.10.232 台灣 02/11 12:21
Shigeru777: 很執著要跑 GPT OSS 120B的話 直接買個 Mac Studio 256GB 實在72F 101.10.218.14 台灣 02/11 12:31
jychu1132: PRO 6000用llama.cpp跑gpt-oss-120b:https://i.imgur.com/GogqKto.jpeg74F 36.225.79.207 台灣 02/11 12:36
[圖]
saito2190: 你要跑120那就直接買GB10的東西
看是NV的Spark還是ASUS GX10
速度不會是最快 但絕對夠用
如果真的要速度也不要用ollama
llama.cpp簡單易用 快10%以上
如果願意花時間學再去搞vllm
MAC體系用EXO或MLX應該比較好
但我沒研究過76F 114.137.71.161 台灣 02/11 12:43
s78513221: 窮人如我,120b接OpenRouter就好
https://i.imgur.com/T2Gh2Kb.jpeg84F 111.71.77.217 台灣 02/11 13:02
[圖]
patvessel: 我是真的看的一頭霧水 現在原po都說問題不是跑不動 是速度太慢才想升級 怎麼這麼多人在說速度不重要先買mac ...
不止mac 統一記憶體的東西頻寬上限就在那邊 要買當然可以 但是那都是權衡和取
真的要便宜連spark或GX10都不用 買個ryzen al 395+ 128g就好了86F 49.215.242.63 台灣 02/11 14:31
GenShoku: 沒有看不懂啊 原po不都在文內說慢可接受 就代表原po是有一定程度的耐慢能力 不需要字串用噴出來的速度 所以回答原po只跑120B可以挑6000沒錯 但如果未來想跑更高等級的模型就考慮mac 有啥問題? 而且M5也會把記憶體頻寬大升級 還有神經加速你除非要玩訓練或是對速度真的有非常敏感的要求那選N卡ok 但未來還想往更大的模型去玩 裝不裝的下就會是重點考量項目
amd的AI生態我不敢亂推就是
https://youtu.be/Adliwsf2oPE 原po可以參考這支影片,我覺得這位有把目前主流本地玩法的比較都講得蠻清楚的94F 114.137.181.80 台灣 02/11 14:46
patvessel: 總之我就先從原po 的場景下去講
模型oss120b 希望提升推論效率 單或低併發
1.可能最便宜的方式 :想辦法多接一張顯示卡讓vram塞得下權重和kv快取 按照vram頻寬速度比例適當分配層數讓不要成明顯瓶頸(pcie頻寬只會影響初次載入模型的時間 相對不重要 可能USB都可以)弄模型分層跑管線
缺點:供電  散熱是大問題 要想辦法處理  長期可能更貴 模型分層要自己調到最佳方案
2.省事高效能的方案:直接買rtx 6000 pro
記憶體頻寬直接衝上本世代消費級極限推論效能和預處理都穩定  不用搞散熱和供電 將來有擴充空間 可以塞第二三張缺點:貴 想插第二三張更貴
3.提升較小但是戰未來的方案:統一記憶體方案 包含mac GX10 strixhalo
統一記憶體至少會比現狀的swap地獄快一點 但是性能提升會遠不如同等級的上述兩個方案 優點是如果將來有更大的模型可能可以用更慢的速度跑108F 49.215.242.63 台灣 02/11 15:01
commandoEX: AIMAX不算統一記憶體方案吧
會在BIOS中預分配系統RAM和顯卡獨佔132F 59.125.204.130 台灣 02/11 15:30
moonlightz: RTXpro 6000(誤)134F 114.42.69.215 台灣 02/11 15:36
Supasizeit: 改用Qwen3 80b (大誤135F 203.204.195.174 台灣 02/11 15:48
KimomiKai: Pro 6000大概28萬台幣
上週的價格136F 1.174.132.84 台灣 02/11 15:58
GenShoku: AImax雖然是128G但實際上只能分配96G給顯存 容量還是對標6000 要玩大模型還是得從mac或多顯卡方案去挑
也不用將來 現在你192B的模型6000就單卡塞不下了138F 114.137.181.80 台灣 02/11 15:59
samsonfu: Mac還可以串在一起143F 49.218.143.118 台灣 02/11 16:49
qwe753951: AI MAX不必特別設定,讓系統去分配記憶體就好了,gpu可以用超過96G144F 211.20.26.1 台灣 02/11 17:05
e2ne0: 直上m3 ultra==146F 114.136.169.132 台灣 02/11 17:22
sdbb: 謝謝推文分享147F 61.230.77.20 台灣 02/11 18:11
fukku100: 用vllm148F 39.12.144.34 台灣 02/11 18:47
jeff85898: aimax bios設定到最小1G 再在grub改GTT vram可以調到120G149F 111.246.10.232 台灣 02/11 18:58
bhmagic: 4070tis在這個場景應該沒有甚麼幫助?151F 99.118.209.229 美國 02/11 19:09

--
作者 newyorker54 的最新發文:
點此顯示更多發文記錄