


→ ZMTL: 看過板規應該沒什麼冒犯的地方嗎...? 感謝 114.27.184.211 04/05 17:58
→ ZMTL: 電蝦板尤其是Zenryaku大在我幾次組電腦都給 114.27.184.211 04/05 17:58
→ ZMTL: 了相當詳盡的意見,希望把一點AI PC的範本 114.27.184.211 04/05 17:58
→ ZMTL: 轉來板上提供給未來有需要的人參考。 114.27.184.211 04/05 17:58
推 bobbyac01: 48G跑個30B上下估計只能Q4 也不知道你 1.169.228.66 04/05 18:01
→ bobbyac01: 有沒有建vLLM SGLang 離生產級好遠 1.169.228.66 04/05 18:01
推 Luciferspear: 先推再看 1.171.207.231 04/05 18:01
推 william456: 3090的背板太燙 114.42.243.63 04/05 18:02
推 jhjhs33504: 單機生產級多工養龍蝦最低IQ2_XXS起跳 36.228.11.93 04/05 18:07
推 jhjhs33504: 少數模型還有1bit量化技術 應該能更省 36.228.11.93 04/05 18:11
→ ZMTL: 雙3090能跑的模型不可能當龍蝦主腦啦 114.27.184.211 04/05 18:15
推 yenchieh1102: 推 101.10.0.87 04/05 18:15
→ ZMTL: 負責資料收集、文件翻譯、知識歸納都很有用 114.27.184.211 04/05 18:15
→ ZMTL: 上面這些工作讓Cluade來跑才真的浪費 114.27.184.211 04/05 18:16
推 kaj1983: 感謝分享配備,看來cpu不用買太好也能跑 218.166.17.234 04/05 18:21
推 Rollnmeow: 不知有沒有勇者嘗試雙ARC B70的 49.216.252.165 04/05 18:32
→ EBVirus: 想請問你的結論這幾個模型哪個比較好用 36.239.20.247 04/05 18:34
→ EBVirus: ? Gemma 4 31b還是qwen3.5 27b還是35b? 36.239.20.247 04/05 18:34
可以參考AI板文章
https://www.ptt.cc/bbs/AI_Art/M.1772731938.A.221.html
https://www.ptt.cc/bbs/AI_Art/M.1775187123.A.6FB.html
快速結論:
要推理:雲端超級模型 eg.Opus 4.6 > GPT 5.4 > Gemini 3.1 Pro
地端苦工(翻譯、資料清洗):Defense 模型 Gemma4 31B、 Qwen3.5 27B
地端高效(聊天、問題警報):MoE 模型 Gemma4 26B-A4B、Qwen3.5 35B-A3B
中文需求:Qwen3.5
多模態任務:Gemma4
推 weiber82: 還是每個月花100美好了… 27.247.32.53 04/05 18:34
→ ZMTL: Gemma4我還沒事,我目前都跑Qwen 114.27.184.211 04/05 18:35
→ ZMTL: 然後Claude我每個月是訂200$,100$都不夠用 114.27.184.211 04/05 18:35
→ ZMTL: 不過Claude這幾天才嚴令用Oauth串訂閱養蝦 114.27.184.211 04/05 18:36
→ ZMTL: 你要養蝦還是要評估怎麼節流 114.27.184.211 04/05 18:36
推 saito2190: 兩張卡應該是vLLM para開2去跑了吧 1.161.179.230 04/05 18:38
→ saito2190: 都玩到這樣了總不會還在用ollama... 1.161.179.230 04/05 18:38
→ saito2190: 不知道Qwen3.5 Tool Call的Bug修好了 1.161.179.230 04/05 18:39
→ saito2190: 沒 1.161.179.230 04/05 18:39
誠實來說,我組完雙卡就回家過清明了,還在研究怎麼跑雙卡比較實際,
所以這篇基本上是提供硬體上的心得XD
※ 編輯: ZMTL (114.27.184.211 臺灣), 04/05/2026 18:53:06
推 YCL13: Qwen3.5雖然很強,但使用上真問題一堆 1.161.159.4 04/05 18:51
推 jhjhs33504: 量化模型要Q8_K或Q8_K_L問題會少很多 36.228.11.93 04/05 19:01
推 jhjhs33504: 居然還有少數Q8_K_XL量化模型品質更好 36.228.11.93 04/05 19:05
推 YukihanaLami: 推 我就是拉到旁邊站 兩張卡疊加放 118.168.254.20 04/05 19:10
→ YukihanaLami: 置不適合我這溫度敏感黨 118.168.254.20 04/05 19:10
推 YCL13: 如果接受拉到旁邊站...其實用拆分卡就好, 1.161.159.4 04/05 19:19
→ YCL13: 不過原PO本來的卡有點低階不確定是否支援 1.161.159.4 04/05 19:19
→ YCL13: 本來的MB 1.161.159.4 04/05 19:20
→ crimsonmoon9: 3090有沒有考慮上nvlink 42.77.204.245 04/05 19:20
推 ack0011: 其實X570比較容易找到符合的,或是多花 123.241.15.208 04/05 19:53
→ ack0011: 一點找個TR4 X399就能隨便插,還能用相 123.241.15.208 04/05 19:53
→ ack0011: 對便宜的16G湊到128G 123.241.15.208 04/05 19:53
→ ZMTL: 對了我要請教一下,直立架+延長線到底能不能 114.27.184.211 04/05 19:58
→ ZMTL: 保留x8啊,硬體我真的很不懂XDDD 114.27.184.211 04/05 19:58
→ himekami: X570 proart我記得有x8/x8 111.83.25.151 04/05 20:06
推 bobbyac01: 直立架跟延長線本身目標就是跑PCIe X1 1.169.228.66 04/05 20:24
→ bobbyac01: 6 1.169.228.66 04/05 20:24
→ bobbyac01: 你要跑x8不會有太大問題 1.169.228.66 04/05 20:24
→ bobbyac01: 但是需要小心訊號不穩 1.169.228.66 04/05 20:24
→ bobbyac01: 有擔心的話可以考慮SFF系列的轉接卡 1.169.228.66 04/05 20:24
推 autopass: 3090 也要缺貨了嗎? 140.109.40.73 04/05 20:28
推 fu1vu03: 如果只是翻譯功能這幾天玩Gemma 4 E4B感 125.229.5.91 04/05 20:30
→ fu1vu03: 覺比gemma 3 27B還好用 125.229.5.91 04/05 20:30
推 jhjhs33504: Gemma 4 E4B還支援音訊 Qwen3.5有台語 36.228.11.93 04/05 20:34
推 d0178411: 前幾天才看到有人雙3090延長線燒毀 樓主 111.71.212.155 04/05 20:36
→ d0178411: 要用好一點的延長線啊 111.71.212.155 04/05 20:36
推 hangtenboy: 看不懂還是給推 114.43.130.151 04/05 20:42
推 Rollnmeow: 原PO指的延長線是PCIE 我還沒聽過會燒 36.227.219.87 04/05 20:49


推 william456: 有人燒過喔,不少個 114.42.243.63 04/05 20:57
→ ZMTL: 好用的延長線跟直立架有推薦嗎XD 114.27.184.211 04/05 20:59
推 jack2k: 以現在RAM/SSD金貴的程度,有這樣的需求, 114.45.25.190 04/05 21:01
→ jack2k: DGX Spark好像也不是不能考慮了? 114.45.25.190 04/05 21:01
→ Rollnmeow: 這有調查過原因嗎?我猜也是觸點問題 36.227.219.87 04/05 21:01
推 taobnug: 目前3090用oculink外接(pcie3.0x4)跑c 111.82.146.63 04/05 21:07
→ taobnug: omfyui和llm使用約一年,一切順暢。 111.82.146.63 04/05 21:07
推 william456: 沒去追蹤,不知道跟GN之前拍過的nz 114.42.243.63 04/05 21:43
→ william456: xt h1是不是同問題,但品牌都不同 114.42.243.63 04/05 21:43
推 Rollnmeow: 如果什麼牌子的線都有機會燒起來 36.227.219.87 04/05 21:50
→ Rollnmeow: 我看解法只剩在機殼裡放熱像儀了 36.227.219.87 04/05 21:50
推 lordmi: 我好奇nvlink在消費級系統裡面有多大幫助 36.229.66.36 04/05 22:33
→ lordmi: ,有機會跑一下比較w 36.229.66.36 04/05 22:33
→ ZMTL: 根據Claude的說法,有沒有Nvlink 跑LLM大概 101.8.89.246 04/05 22:39
→ ZMTL: 差10-15%,主要還是靠PCIE連通,但我不知道 101.8.89.246 04/05 22:39
→ ZMTL: 真的假的XD 101.8.89.246 04/05 22:39
推 Supasizeit: TP 跟NVLink好像可以一起上?203.204.195.174 04/05 23:05
→ Supasizeit: VLLM文件是寫可以203.204.195.174 04/05 23:06
推 ByPass128: 差30到50趴,之前看的實測 27.247.121.167 04/06 00:50
推 hsuallan: 翻譯可以試試translate-gemma 61.228.92.55 04/06 01:14
→ hsuallan: 自己本地跑起還行 看VT直播夠用了 61.228.92.55 04/06 01:15
推 qwe753951: 我之前是用Mac studio 放桌上不會吵 114.38.67.135 04/06 03:12
→ qwe753951: mac那邊比較簡單,有多少錢買多少ram, 114.38.67.135 04/06 03:17
→ qwe753951: 一台不夠買兩台 114.38.67.135 04/06 03:17
推 michael4210: 3090要搞nvlink的話橋接器非常難買也106.107.176.151 04/06 05:06
→ michael4210: 不便宜,當初我也是想這樣玩但後來發106.107.176.151 04/06 05:06
→ michael4210: 現成本太高,最後只用一張3090106.107.176.151 04/06 05:06
推 blueballer: 看來現在就是AI分流的時代了,高難度 223.137.135.24 04/06 07:20
→ blueballer: 工作給各家最強的AI,簡單、機敏的任 223.137.135.24 04/06 07:20
→ blueballer: 務交給本地模型,不然龍蝦token用量 223.137.135.24 04/06 07:21
→ blueballer: 太大了,不過想問原po任務分配給哪個 223.137.135.24 04/06 07:21
→ blueballer: 模型龍蝦能自己判斷嗎?還是下指令前 223.137.135.24 04/06 07:21
→ blueballer: 要註明? 223.137.135.24 04/06 07:21
→ uly: 這網站來測試你本地的模型 很好玩 看能否上23 112.71.133.53 04/06 08:00
推 uly: 我自己的判斷是 token gen>50/s sql分>21 112.71.133.53 04/06 08:10
→ uly: 才算是日常寫程式可用 112.71.133.53 04/06 08:10
推 uly: 我只有3080TI12GB 用Qwen35 35B也能到70/s 23 112.71.133.53 04/06 08:24
推 uly: 某些9B蒸餾版本有16分的跑在8G卡簡單task能用 112.71.133.53 04/06 08:28
推 meloxxl: 12G也能跑35b嗎 我問AI他說會卡成狗 建 123.192.184.46 04/06 11:57
→ meloxxl: 議要有24g以上樓上大大的35b模型有壓縮 123.192.184.46 04/06 11:57

→ crimsonmoon9: Q4大概18GB Q3或Q2可能塞得下吧 42.77.204.245 04/06 12:04
→ crimsonmoon9: 日常使用可以選低參數量的 寫程式才 42.77.204.245 04/06 12:07
→ crimsonmoon9: 比較需要高參數量加上低精度 42.77.204.245 04/06 12:07
推 uly: Qwen3.5 35B A3B MOE架構12G可跑 27B卡成狗 112.71.133.53 04/06 12:41
→ uly: 12GB卡都會用Q4左右量化 112.71.133.53 04/06 12:42
推 necrophagist: Moe架構比dense快很多 即使檔案較 111.81.34.139 04/06 12:50
→ necrophagist: 大offload到ram的部分更多也一樣 111.81.34.139 04/06 12:50
→ necrophagist: 但dense模型真的就是比較聰明 111.81.34.139 04/06 12:51
推 YCL13: 簡單來說,多數的AI在回答問題時都沒把MOE 59.115.163.173 04/06 13:05
→ YCL13: 放在答案裡,才會說出offload就是慢這種話 59.115.163.173 04/06 13:05
→ YCL13: ,像記憶體和CPU沒影響說法也是這麼來的 59.115.163.173 04/06 13:05
→ crimsonmoon9: MoE通常都比較快啊 只是跟同量級模 42.77.204.245 04/06 13:07
→ crimsonmoon9: 型比active的參數比較少所以沒那麼 42.77.204.245 04/06 13:07
→ crimsonmoon9: 聰明 比較像知識廣但是不深 42.77.204.245 04/06 13:07
→ crimsonmoon9: 如果整個模型可以全塞進VRAM裡幾乎 42.77.204.245 04/06 13:08
→ crimsonmoon9: 可以說沒有影響是沒錯 42.77.204.245 04/06 13:08
推 YCL13: MOE換取速度的代價就是樓上說的聰明,不過 59.115.163.173 04/06 13:10
→ YCL13: 模型的能力一直在提升,我就覺得gemma4 26B 59.115.163.173 04/06 13:10
→ YCL13: A4B非常接近Qwen3.5 27B 59.115.163.173 04/06 13:10
推 Rightclick: 很想把Lab兩張3090組起來,但教授說沒 39.12.138.153 04/06 13:56
→ Rightclick: 有雙x16損耗太大拒絕了.. 39.12.138.153 04/06 13:56
→ crimsonmoon9: 找一台epyc就有一堆x16了(x 42.77.204.245 04/06 14:03
→ linlun0807: 我也在考慮這套組合 抑或是要衝6000pr 125.228.86.78 04/06 14:54
→ linlun0807: o 125.228.86.78 04/06 14:54
推 pxhome: 3090原生不支援FP8, 只能INT8或者FP16, 36.230.188.35 04/06 15:30
→ pxhome: 24GB只是好看而已 36.230.188.35 04/06 15:30
推 pxhome: 只有Hopper以後的TensorCore才支持FP8 36.230.188.35 04/06 15:33
→ pxhome: 首選4090的,或者24GB的MAC M4 36.230.188.35 04/06 15:34
推 pxhome: Intel ARC B60/B70算力太低不適合跑AI 36.230.188.35 04/06 15:36
→ pxhome: 30B量化至少要16GB,再往上70B首選是4090 36.230.188.35 04/06 15:37
→ pxhome: 24GB 36.230.188.35 04/06 15:37
推 pxhome: 會推MAC是因為GPU&CPU統一記憶體架構,24G 36.230.188.35 04/06 15:40
→ pxhome: B 250GB/s的頻寬相當於GDDR5 256Bit跑30B 36.230.188.35 04/06 15:40
→ pxhome: 還夠用 36.230.188.35 04/06 15:40
→ pxhome: MAC MINI M4 PRO 36.230.188.35 04/06 15:42
→ pxhome: gemma-4-31B-it 4Bit量化,VRAM佔用量, 36.230.188.35 04/06 15:50
→ pxhome: 最大19GB 36.230.188.35 04/06 15:50
→ pxhome: 如果你的口袋夠深可以拿64GB 36.230.188.35 04/06 15:52
推 pxhome: M4 MAX 536GB /s 相當於256Bit GDDR6 , 6 36.230.188.35 04/06 16:06
→ pxhome: 4GB跑 70B 4Bit量化很流暢,重點價格還比3 36.230.188.35 04/06 16:06
→ pxhome: 2GB的5090單卡便宜一些,也不用擔心那個 36.230.188.35 04/06 16:06
→ pxhome: 該死的12pin燒卡 36.230.188.35 04/06 16:06
→ pxhome: MAC Studio 36.230.188.35 04/06 16:07
→ pxhome: 如果模型有支援MLX, 比如說Gemma 3N, 36.230.188.35 04/06 16:14
→ pxhome: 可以改用Apple Silicon 16核心NPU來做數 36.230.188.35 04/06 16:14
→ pxhome: 學推論,作同樣的一件事性能提高了3倍,功 36.230.188.35 04/06 16:14
→ pxhome: 耗只有1/10,這是NV GPU的弱點 36.230.188.35 04/06 16:14
推 newyorker54: 剛剛測本地gemma 4 , score 21 36.237.178.163 04/06 16:20
推 jhjhs33504: 4Bit量化首選gpt-oss其他品質損耗太大 36.228.11.93 04/06 16:24
推 jhjhs33504: 模型回覆的品質體感難以單一指標評估 36.228.11.93 04/06 16:27
→ jhjhs33504: 跑分通常是快慢 很多模型問多容易跑題 36.228.11.93 04/06 16:30
推 scarbywind: 有測試影片說m5比m4快一倍 39.14.32.88 04/06 18:04
→ necrophagist: 發現前面推文圖的ai也太多幻覺了吧 111.81.34.139 04/06 18:13
→ necrophagist: 笑死xd qwen3.5 7b/14b根本不存在 111.81.34.139 04/06 18:13
→ necrophagist: 的模型 叫它更新確認網路資料再比 111.81.34.139 04/06 18:13
→ necrophagist: 啦 111.81.34.139 04/06 18:13
推 jhjhs33504: 可惜速度快的gpt-oss不具圖像辨識能力 36.228.11.93 04/06 18:26
推 newyorker54: 自己用qwen3.5-27b測score 23, 幹掉k 36.237.178.163 04/06 18:27
→ newyorker54: imi k2.5 , 對標qwen3.6 plus 36.237.178.163 04/06 18:27
→ newyorker54: 幹掉glm 5, 這是真的嗎? 36.237.178.163 04/06 18:27
→ newyorker54: 還比 gpt 5.4高我是不太相信這個數據 36.237.178.163 04/06 18:28
推 uly: 各個benchmark有其觀察面向SQL看的是tooling 112.71.133.53 04/06 21:12
→ uly: 比如說長上下文能力在這個SQL就看不出來 112.71.133.53 04/06 21:13
推 uly: Qwen3.5 27B可能在這種單SQL場景正確性高 112.71.133.53 04/06 21:17
推 Esvent: 最近剛好在玩 5090+3090(x4) 效果還不錯223.137.179.211 04/07 08:51
→ Esvent:223.137.179.211 04/07 08:51
→ Esvent: magnum 72b q4_k_ml 速度超快 品質還算可223.137.179.211 04/07 08:51
→ Esvent: 以223.137.179.211 04/07 08:51
→ Esvent: magnum 123b iq3_xxs 速度慢一些 但更聰223.137.179.211 04/07 08:51
→ Esvent: 明223.137.179.211 04/07 08:51
→ Esvent: 不過期間把OS搞壞幾次 後來發現是ddr5 e223.137.179.211 04/07 08:51
→ Esvent: xpo 還有主機板ai 超頻的問題 關掉就穩了223.137.179.211 04/07 08:51
推 w1222067: x8 x8 主機板 不少阿 36.233.68.24 04/07 10:30
→ ZMTL: 不確定是不是因為我不想換CPU,還是該連CPU 60.250.61.214 04/07 11:19
→ ZMTL: 都一起換掉 60.250.61.214 04/07 11:19
→ ZMTL: 1700腳位的真的少 60.250.61.214 04/07 11:19
推 yymeow: AM5或1851的x8/x8板子選擇就不少 60.250.130.216 04/07 11:58