[請益] 兩個改裝方案跑本地LLM請賜教 - PC_Shopping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2026-02-11 19:36:36

看板 PC_Shopping

作者 newyorker54 (紐約客)
標題 [請益]兩個改裝方案跑本地LLM
時間 Wed Feb 11 10:34:27 2026

先說我的配備
CPU AMD RYZEN 9950
主板 ASUS CROSSHAIR X870E HERO
RAM Kingston furry beast ddr5 5600
32g x2
crucial pro ddr5 6000 32g x2
共128g
ssd 美光 T500 2tb
顯示卡 GIGABYTE GAMING OC 5090
GIGABYTE 4070TIS 16G
共48G VRAM
兩台螢幕用舊的不算錢
跑 GPT_OSS 120B 慢但可接受
QWEN 30B_A3B慢可接受
Deepseek 70b 更慢比gpt-oss 120b 稍快

這塊主板最高記憶體只能加到192gb，
現在128，
vram 現在48gb

因為LLM架在ollama下所以在VRAM不夠時例如在跑OSS 120B模型它會自己調用主機記憶體，速度有變慢，尤其是High thinking模式時，但是這塊板子只能插兩張顯示卡，，如果要順跑120B高思考模式，是換主板再加一張16g或32g顯示卡變成插三張卡或是換掉16g顯示卡改插rtx pro 6000前者是不是C/P值比較高？

後者成本太高，會不會兩個方案跑起來差不多？

-----
Sent from JPTT on my Samsung SM-S7110.

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.98.194 (臺灣)
※ 作者: newyorker54 2026-02-11 10:34:27
※ 文章代碼(AID): #1fY-gr0Y (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770777269.A.022.html

※ 編輯: newyorker54 (140.116.98.194 臺灣), 02/11/2026 10:35:38

推 w1222067: 都有預算6000了還需要想嗎1F 36.233.99.112 台灣 02/11 10:42

推 pphyy5844548: 我覺得東西一多問題比較大，換pro2F 39.14.17.171 台灣 02/11 10:45
→ pphyy5844548: 6000

推 lordmi: 半年前問的話你還有X99並聯主板加3090魔4F 223.136.121.73 台灣 02/11 10:52
→ lordmi: 改卡x4這個選擇，現在就不用想了

推 GenShoku: 你只卡在120B的話6000還行，不然直上大6F 114.137.181.80 台灣 02/11 11:06
→ GenShoku: 容量mac比較實在

推 yymeow: 問題在於原PO是要跑得起來還是跑得不慢8F 60.250.130.216 台灣 02/11 11:16
→ yymeow: 跑得起來，用多張顯卡加上GPU layer off-
→ yymeow: load是可以上去，但是會卡PCIe還有卡對卡
→ yymeow: 傳輸瓶頸。若是要順還是要上6000的卡，或
→ yymeow: 是找統一記憶體的mac mini或GX10
→ yymeow: 公司用一律上6000的卡，個人的話可以用統
→ yymeow: 一記憶體的解決方案

推 patvessel: 層數分割其實對於pcie頻寬的要求很低15F 125.229.28.82 台灣 02/11 11:22
→ patvessel: 只要能塞進vram 傳輸的只有中間值就算
→ patvessel: 是礦機板都可以跑的起來
→ patvessel: 只有初次載入會比較慢

推 yenchieh1102: 光華在海鮮上了一堆運算卡，你去看19F 220.134.44.227 台灣 02/11 11:24
→ yenchieh1102: 看，我剛看到一個VRAM 72G的鬼東西
→ yenchieh1102: 還比pro 6000便宜

→ patvessel: 真正的推理的瓶頸還是在vram頻寬22F 125.229.28.82 台灣 02/11 11:25
→ patvessel: 反而是統一記憶體的方案大多會在預充填
→ patvessel: 階段帶來顯著的落差

推 eddy13: 5090跑30B A3B應該很快吧25F 114.137.221.213 台灣 02/11 11:29

→ newyorker54: 所以請問mac studio 會優於pro 6000?26F 140.116.98.194 台灣 02/11 11:29

推 patvessel: 不會頻寬和算力都有落差27F 125.229.28.82 台灣 02/11 11:33
→ patvessel: mac 比較像是想省電省空間的權衡方案
→ patvessel: 單論性能可能還不如你直接塞第三張卡
→ patvessel: 依我個人立場來說的話
→ patvessel: 現在這個狀況想初期省錢就塞第三張卡
→ patvessel: 可以兼顧效能和短期錢包
→ patvessel: 缺點是供電和排熱環境可能要一起整理
→ patvessel: 願意多花錢又想追求效能那就上6000
→ patvessel: 如果要極致的省空間和省電才選擇mac
→ patvessel: 但同時犧牲了核心算力效能頻寬和生態
→ patvessel: 成熟度

推 lordmi: 哪個更好取決於你的工作重心在哪如果是38F 122.116.29.245 台灣 02/11 11:43
→ lordmi: 訓練10億個tokens，pro6000理論上快7倍。
→ lordmi: 如果是推論最大512gb的studio 比 96gb的
→ lordmi: pro6000有用很多

推 agnme2: 5060ti*3+256gb quad _ddr4 2933路過42F 49.215.231.219 台灣 02/11 11:43

推 patvessel: lordmi說的有道理我的說法是根據原PO43F 125.229.28.82 台灣 02/11 11:45
→ patvessel: 開出的模型清單給的建議如果想用更大

推 agnme2: 重點應該在用途，跟能忍受的速度與智商之45F 49.215.231.219 台灣 02/11 11:46
→ agnme2: 間均衡取捨，有錢的話就沒差直接買h200_xd

→ patvessel: 的模型那前提自然不成立可以考慮MAC47F 125.229.28.82 台灣 02/11 11:46
→ patvessel: 但是120B的狀況下是用不到512GB的統一
→ patvessel: 記憶體的
→ patvessel: 而要是真的用到512GB的大型模型的話
→ patvessel: MAC的頻寬又會限制推論速度
→ patvessel: 那就又回到一開始的問題了跑得慢
推 patvessel: 花了更多錢跑了更大的模型但是跑得一
→ patvessel: 樣慢可能不是原PO想要的吧

→ vsbrm: 先提預算再來講效果55F 42.77.60.78 台灣 02/11 11:57

推 jychu1132: 不爆VRAM的話PRO 6000 CP值最高56F 36.225.79.207 台灣 02/11 11:59

→ promaster: 不計較預算就mac studio 512GB買齊57F 1.161.161.205 台灣 02/11 12:05
→ promaster: 然後賣掉你現在這套貼補回mac studio
→ promaster: 絕大部分llm你都能跑了
→ promaster: 速度怎樣是另外一回事

推 GenShoku: 現在一堆模型都有flash版，速度其實也不61F 114.137.181.80 台灣 02/11 12:16
→ GenShoku: 會差到不好用，但Mac統合記憶體的超大ra
→ GenShoku: m就是直接決定你可以使用的模型上限跟上
→ GenShoku: 下文長度，你如果沒那麼在意速度，以後
→ GenShoku: 又想跑像step 3.5這類超大模型(192B)，
→ GenShoku: 直上Mac Studio(256G應該就夠用)會是比
→ GenShoku: 較實際的選擇

推 jeff85898: 不用換主板現在Pcie 5.0 x16頻寬很夠68F 111.246.10.232 台灣 02/11 12:21
→ jeff85898: 用的
→ jeff85898: 你這張板子有兩組上拆分卡可以裝4卡P
→ jeff85898: cie4.0x16不損效能

推 Shigeru777: 很執著要跑 GPT OSS 120B的話直接買72F 101.10.218.14 台灣 02/11 12:31
→ Shigeru777: 個 Mac Studio 256GB 實在

→ jychu1132: PRO 6000用llama.cpp跑gpt-oss-120b:74F 36.225.79.207 台灣 02/11 12:36
→ jychu1132: https://i.imgur.com/GogqKto.jpeg

推 saito2190: 你要跑120那就直接買GB10的東西76F 114.137.71.161 台灣 02/11 12:43
→ saito2190: 看是NV的Spark還是ASUS GX10
→ saito2190: 速度不會是最快但絕對夠用
→ saito2190: 如果真的要速度也不要用ollama
→ saito2190: llama.cpp簡單易用快10%以上
→ saito2190: 如果願意花時間學再去搞vllm
→ saito2190: MAC體系用EXO或MLX應該比較好
→ saito2190: 但我沒研究過

推 s78513221: 窮人如我，120b接OpenRouter就好84F 111.71.77.217 台灣 02/11 13:02
→ s78513221: https://i.imgur.com/T2Gh2Kb.jpeg

推 patvessel: 我是真的看的一頭霧水現在原po都說問86F 49.215.242.63 台灣 02/11 14:31
→ patvessel: 題不是跑不動是速度太慢才想升級怎麼
→ patvessel: 這麼多人在說速度不重要先買mac ...
→ patvessel: 不止mac 統一記憶體的東西頻寬上限就在
→ patvessel: 那邊要買當然可以但是那都是權衡和取
→ patvessel: 捨
→ patvessel: 真的要便宜連spark或GX10都不用買個ry
→ patvessel: zen al 395+ 128g就好了

推 GenShoku: 沒有看不懂啊原po不都在文內說慢可接受94F 114.137.181.80 台灣 02/11 14:46
→ GenShoku: 就代表原po是有一定程度的耐慢能力不
→ GenShoku: 需要字串用噴出來的速度所以回答原po只
→ GenShoku: 跑120B可以挑6000沒錯但如果未來想跑更
→ GenShoku: 高等級的模型就考慮mac 有啥問題? 而且M
→ GenShoku: 5也會把記憶體頻寬大升級還有神經加速
→ GenShoku: 你除非要玩訓練或是對速度真的有非常敏
→ GenShoku: 感的要求那選N卡ok 但未來還想往更大的
→ GenShoku: 模型去玩裝不裝的下就會是重點考量項目
→ GenShoku: 啊
推 GenShoku: amd的AI生態我不敢亂推就是
→ GenShoku: https://youtu.be/Adliwsf2oPE 原po可以
→ GenShoku: 參考這支影片，我覺得這位有把目前主流
→ GenShoku: 本地玩法的比較都講得蠻清楚的

→ patvessel: 總之我就先從原po 的場景下去講108F 49.215.242.63 台灣 02/11 15:01
→ patvessel: 模型oss120b 希望提升推論效率單或低
→ patvessel: 併發
→ patvessel: 1.可能最便宜的方式：想辦法多接一張
→ patvessel: 顯示卡讓vram塞得下權重和kv快取按照v
→ patvessel: ram頻寬速度比例適當分配層數讓不要成
→ patvessel: 明顯瓶頸（pcie頻寬只會影響初次載入模
→ patvessel: 型的時間相對不重要可能USB都可以）
→ patvessel: 弄模型分層跑管線
→ patvessel: 缺點：供電散熱是大問題要想辦法處
→ patvessel: 理長期可能更貴模型分層要自己調到
→ patvessel: 最佳方案
→ patvessel: 2.省事高效能的方案：直接買rtx 6000 p
→ patvessel: ro
→ patvessel: 記憶體頻寬直接衝上本世代消費級極限
→ patvessel: 推論效能和預處理都穩定不用搞散熱和
→ patvessel: 供電將來有擴充空間可以塞第二三張
→ patvessel: 缺點：貴想插第二三張更貴
→ patvessel: 3.提升較小但是戰未來的方案：統一記憶
→ patvessel: 體方案包含mac GX10 strixhalo
→ patvessel: 統一記憶體至少會比現狀的swap地獄快一
→ patvessel: 點但是性能提升會遠不如同等級的上述
→ patvessel: 兩個方案優點是如果將來有更大的模型
→ patvessel: 可能可以用更慢的速度跑

→ commandoEX: AIMAX不算統一記憶體方案吧132F 59.125.204.130 台灣 02/11 15:30
→ commandoEX: 會在BIOS中預分配系統RAM和顯卡獨佔

推 moonlightz: RTXpro 6000（誤）134F 114.42.69.215 台灣 02/11 15:36

推 Supasizeit: 改用Qwen3 80b （大誤135F 203.204.195.174 台灣 02/11 15:48

推 KimomiKai: Pro 6000大概28萬台幣136F 1.174.132.84 台灣 02/11 15:58
→ KimomiKai: 上週的價格

推 GenShoku: AImax雖然是128G但實際上只能分配96G給138F 114.137.181.80 台灣 02/11 15:59
→ GenShoku: 顯存容量還是對標6000 要玩大模型還是
→ GenShoku: 得從mac或多顯卡方案去挑
→ GenShoku: 也不用將來現在你192B的模型6000就單卡
→ GenShoku: 塞不下了

推 samsonfu: Mac還可以串在一起143F 49.218.143.118 台灣 02/11 16:49

推 qwe753951: AI MAX不必特別設定，讓系統去分配記憶144F 211.20.26.1 台灣 02/11 17:05
→ qwe753951: 體就好了，gpu可以用超過96G

推 e2ne0: 直上m3 ultra==146F 114.136.169.132 台灣 02/11 17:22

推 sdbb: 謝謝推文分享147F 61.230.77.20 台灣 02/11 18:11

推 fukku100: 用vllm148F 39.12.144.34 台灣 02/11 18:47

→ jeff85898: aimax bios設定到最小1G 再在grub改GTT149F 111.246.10.232 台灣 02/11 18:58
→ jeff85898: vram可以調到120G

推 bhmagic: 4070tis在這個場景應該沒有甚麼幫助?151F 99.118.209.229 美國 02/11 19:09

※ 看板: PC_Shopping　文章推薦值: 0 目前人氣: 0 累積人氣: 81　

分享網址: 複製

DispBBS

回到看板(←)《PC_Shopping》

→

guest

x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享