Re: [請益] 兩個改裝方案跑本地LLM請賜教 - PC_Shopping板

作者 TameFoxx (foxx)
標題 Re: [請益] 兩個改裝方案跑本地LLM請賜教
時間 Thu Feb 12 15:02:26 2026

如果你今天只打算用ollama跑
那建議你放棄更新硬體了
直接用網路上的API比較划算

以oss-120B為例子
你用現在的硬體跑估計每秒20左右吧?
你換Pro 6000大概也才8~90每秒
比對現在API價格
你的Pro 6000大概要不眠不休輸出20年才可以回本
而且這還是不考慮電費的情況

然後就是你買GPU如果只是為了VRAM
那這和你直接插RAM沒什麼差別
我不是很確定目前ollama能不能支援張量並行
但就算支援張量並行你的速度也會受限於比較慢的那張卡
再者就是如果要張量並行
你的GPU數量只能是2的指數個
用3片GPU是毫無意義的

有人可能會好奇那Pro 6000不就是垃圾?
上面之所以會說要不眠不休20年才會回本
是因為原po是打算用ollama跑
他只能單一時間為單一request服務
目前主流都是在Linux環境用vllm跑模型推論服務同時為多人服務
高併發情境下讓他保持最大吞吐量
大概可以不到半年就回本

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.39.243.162 (臺灣)
※ 作者: TameFoxx 2026-02-12 15:02:26
※ 文章代碼(AID): #1fZNi4Vk (PC_Shopping)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770879748.A.7EE.html

※ 同主題文章:

[請益] 兩個改裝方案跑本地LLM請賜教

02-11 10:34 newyorker54

Re: [請益] 兩個改裝方案跑本地LLM請賜教

02-12 15:02 TameFoxx

推 saito2190: 我也是被ollama的低效率坑過，最坑的是他不能同時發request，只能排隊
所以我後來直接投入vllm的懷抱
有時候硬體投資不一定是要回本，說不定原PO有必須落地使用的場景1F 1.161.155.235 台灣 02/12 19:51

推 YCL13: 我也是棄ollama，覺得最佳化調整不易
不過GPT-oss 120B在使用上只需要用MOE架構來跑就可以達到很好的效果，並不需用vllm的張量並行來應用多GPU
我只用5080+64G RAM就可以跑20左右6F 1.161.130.221 台灣 02/12 21:22

作者 TameFoxx 的最新發文:

+2 Re: [請益] 兩個改裝方案跑本地LLM請賜教 - PC_Shopping 板

作者: TameFoxx 202.39.243.162 (台灣) 2026-02-12 15:02:26

10F 2推
+11 Re: [請益] 如果有1300萬是當包租公還是買台積電 - Stock 板

作者: TameFoxx 202.39.243.162 (台灣) 2025-11-04 13:20:55

39F 12推 1噓
+8 [祭品] CFO讓二追三晉級四強!送戰隊外套 - LoL 板

作者: TameFoxx 202.39.243.162 (台灣) 2025-10-29 16:49:55

10F 8推
+2 Re: [問卦] DeepSeek怎突然沒人用了 - Gossiping 板

作者: TameFoxx 202.39.243.162 (台灣) 2025-10-15 13:21:36

8F 2推
+5 Re: [新聞] 輝達最大威脅來了！華為2026年推全球最強 - Stock 板

作者: TameFoxx 219.68.125.23 (台灣) 2025-09-19 21:13:35

22F 9推 4噓

點此顯示更多發文記錄