→ sinclaireche: 現在無腦裝應用是會被供應鏈攻擊的 112.104.98.169 06/08 07:51
→ crimsonmoon9: GB10沒有新到image沒driver吧 223.139.112.30 06/08 08:00
推 saito2190: 你的container run time沒有改成NV吧 1.161.160.164 06/08 08:03
真的沒有,
我抓的是ollama的container, 真的沒有支援gb10
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 08:04:53
→ saito2190: 雖然ollama快速開箱就能用,但是你會 1.161.160.164 06/08 08:04
→ saito2190: 發現他其實超級難用,一堆設定都不能 1.161.160.164 06/08 08:04
→ saito2190: 調,建議儘早改用vllm或llama.cpp 1.161.160.164 06/08 08:04
→ crimsonmoon9: 由於我要打瓦所以GB10被我丟進機櫃 223.139.112.30 06/08 08:05
→ crimsonmoon9: 只用來開endpoint在Windows上用 223.139.112.30 06/08 08:05
→ crimsonmoon9: 結論 萬惡拳頭 223.139.112.30 06/08 08:05
→ crimsonmoon9: 容器需要額外裝ctk 可能缺這個 223.139.112.30 06/08 08:06
推 saito2190: 如果原PO比較懶得調參數,有個網站可 1.161.160.164 06/08 08:09
→ saito2190: 以直接抄 spark-arena.com 裡面都是fo 1.161.160.164 06/08 08:09
→ saito2190: r GB10能直接抄了去用的RECIPE 1.161.160.164 06/08 08:09
→ saito2190: 單人Agent使用我推Qwen3.5 122B NVFP4 1.161.160.164 06/08 08:09
→ saito2190: 多人的話就3.6 35B FP8或NVFP4都行 1.161.160.164 06/08 08:09
推 L4D3: 裝wsl就好了啊 223.141.61.145 06/08 08:15
→ sinclaireche: 遠離Windows 11 104.28.160.169 06/08 08:28
→ sinclaireche: ollama 不實用 104.28.160.169 06/08 08:29
→ pc0805: 聽人家說ollama很爛的樣子,用llama.cpp 223.136.72.24 06/08 08:44
→ pc0805: 比較好 223.136.72.24 06/08 08:44
推 SHR4587: 一般人去用Linux只會幹幹叫而已==111.248.116.162 06/08 08:50
→ SHR4587: 說沒差很多是因為你有相關知識可以很輕鬆111.248.116.162 06/08 08:50
→ SHR4587: 上手,不要說電腦小白,沒有程式背景111.248.116.162 06/08 08:51
→ SHR4587: 的去用學習成本會滿高的111.248.116.162 06/08 08:51
→ SHR4587: 至於你說AI時代也不是所有人有需求去部屬111.248.116.162 06/08 08:52
→ SHR4587: 本機LLM吧,有這個需求當然會自己去找111.248.116.162 06/08 08:52
→ SHR4587: Linux跟MacOS111.248.116.162 06/08 08:52
推 sdbb: Tpu:為何不用自己親生的? 111.251.69.106 06/08 08:56
又不對外賣, 我在家做side project沒有tpu可以用,
得過兩次tech impact awards,
公司送我兩張tpu 卡當成獎牌,
但是我很懷疑這兩張可能無法開機,
我不想讓家裡爆炸起火
→ spfy: ollama優點就就是裝了即用吧 但也就這樣 114.136.78.254 06/08 08:59
推 s78513221: 我覺得是Token成本跟審查的問題 111.71.100.198 06/08 09:03
→ s78513221: 如果用到超出現有訂閱制的上限或邊界 111.71.100.198 06/08 09:03
→ s78513221: 那麼本機LLM就有他的必要性了 111.71.100.198 06/08 09:03
推 eddy13: 你都建議大家要用Linux了,怎麼還會想用o114.137.107.127 06/08 09:06
→ eddy13: llama呀?114.137.107.127 06/08 09:06
→ sinclaireche: 投入成本跑雲端同級模型可以好幾年 104.28.159.154 06/08 09:28
→ sinclaireche: 只有要繞過安全性邊界或機密的需求 104.28.159.154 06/08 09:29
→ sinclaireche: Token 成本是不會比雲端便宜的 104.28.159.154 06/08 09:30
我的gemini api toke 一個月三四百塊美金,
這都已經是我最保守最便宜的用法,
我沒搞tokenmaxx 那套,
我非常非常省著用token,
微軟語音一個月$50美金,
最貴的是kling 動畫製作,
一個月要兩百塊以上,
只是平均每天三分鐘的動畫製作而已
加起來一個月五百塊token費用,
所以本地LLM 省一半的token 就划算了,
一個月省250美元, 很合理吧,
一年就省三千美金,
這台我準備用四五年以上,
更何況可以繞過安全邊界,
我的ptt 鬼故事短片一直被gemini 拒絕生成
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 09:34:59
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 09:39:44
→ iceyang: 答應我 別做醬板鴨 61.224.172.211 06/08 09:47
推 bizer: 要做醬板鴨這台會跑到睡著,哈 1.160.179.71 06/08 09:59
噓 are2: rocm+windows好像沒有你麻煩喔 42.70.110.33 06/08 10:02
→ are2: 看只搞個ollama就這樣多折騰了 42.70.110.33 06/08 10:03
→ are2: 你目前裝這些離linux的精髓還差得遠 42.70.110.33 06/08 10:09
推 newyorker54: 我一開始也是用ollama, 後來也是乖乖 140.116.98.195 06/08 10:12
→ newyorker54: 投向llama.cpp 140.116.98.195 06/08 10:12
→ newyorker54: 單人使用llama.cpp又比vllm好用 140.116.98.195 06/08 10:12
推 amos30627: 我看厲害的都不用ollama欸 101.8.129.50 06/08 10:15
→ amos30627: 我現在就是windows用ollama 雖裝即用 101.8.129.50 06/08 10:18
→ amos30627: 超級簡單 101.8.129.50 06/08 10:18
這些都只是工具而已,
哪有什麼厲害不厲害的,
模型可能有影響,
其他連模型都稱不上的工具,
哪有什麼差別,
重點根本不是在這些工具上面,
只是一次安裝很煩
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 10:21:31
→ soulgem: 買 DGX spark 那本書翻第一頁 ClaudeCode 140.112.30.184 06/08 10:21
→ soulgem: 直接昏倒... 140.112.30.184 06/08 10:21
推 sdbb: Tqqq の王要做的事,ollama 可能無法滿足 111.251.69.106 06/08 10:22
→ soulgem: Windows用lmstudio,linux才走ollama。 140.112.30.184 06/08 10:22
→ soulgem: 今天才開始跟 Hermes desktop 但也嚇到了 140.112.30.184 06/08 10:26
噓 are2: windows用wsl2+doccker裝啥都行118.150.170.141 06/08 10:40
→ are2: 但要用windows就別折騰本地AI了 OS太爛118.150.170.141 06/08 10:41
推 CardLin: 我目前訂gpt-5.4-mini for Hermes Agent 111.243.9.138 06/08 10:53
→ CardLin: 搭配訂閱 AntiGravity for Hermes Coding 111.243.9.138 06/08 10:54
→ CardLin: Hermes 會自動呼叫 agy 命令去寫程式 111.243.9.138 06/08 10:55
→ CardLin: 我想問原PO是甚麼因素不用訂閱的就好? 111.243.9.138 06/08 10:55
→ CardLin: 除了鬼故事被禁止,訂多個平台也比較便宜 111.243.9.138 06/08 10:56
我已經說過原因了,
我一直都用訂閱的, 你搞錯了,
我的prototype 就是用我手上的七年舊筆電跟mac mini 做出來的,
用各個平台的token 訂閱,
我用gemini api 生成文字劇情故事,
還有用香蕉2.0 api畫圖,
用微軟語音生成聲音,
再用kling 把圖轉動畫,
全部訂閱沒有本地LLM,
一個月500美金,
原因就是想省一半的token 錢,
還有鬼故事被禁止到根本沒什麼鬼故事可以生成,
還有我想做ai 界的onlyfans
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:03:23
推 CardLin: 另一個問題是GX10速度能媲美API的速度嗎? 111.243.9.138 06/08 11:01
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:03:59
推 Shian1225: NV邊緣運算開發的從業人員路過,跟Jet 42.79.40.85 06/08 11:04
→ Shian1225: son系列比,GB10的文件已經相對完善了 42.79.40.85 06/08 11:04
→ Shian1225: ,只是AI的回答常會混用x86的解答,NV 42.79.40.85 06/08 11:04
→ Shian1225: 有整理幾個常用LLM推理後端的應用流程 42.79.40.85 06/08 11:04
→ Shian1225: ,桌面捷徑跟手冊裡應該都有連結: 42.79.40.85 06/08 11:04
推 nrsair: 技術和AI 49.217.123.245 06/08 11:08
推 CardLin: 謝謝回覆,那請問GX10速度會不會很慢,最 111.243.9.138 06/08 11:10
→ CardLin: 終導致覺得速度太慢不好用?? 111.243.9.138 06/08 11:11
→ CardLin: 我測過RTX4070TiS跑gpt-oss-20b就覺得慢 111.243.9.138 06/08 11:11
我把速度跟效能方面說清楚:
1. Gemini 最快, 無敵快,
生成文章大概幾秒,
生圖甚至不到一秒
2. 本地ollama 生成文章慢,
跟模型大小有關,
同樣文章大小, Gemini 幾秒鐘,
qwen3.6-35B local 十幾分鐘,
qwen2.5-72B local 三十幾分鐘, 偶而還會timeout
3. 本地ComfyUI 生成圖:
一張圖大概一分鐘上下
但是, 就是這個但是,
整個流程最花時間的不是這部分,
最花時間的是影片部分,
kling 一個影片request大概3-5秒的影片長度,
但是需要2-5分鐘,
所以生成3分鐘的短片,
kling 需要一小時左右的生成時間,
會生成30-60的小檔案mp4,
然後再把這些小檔案串成一個三分鐘的mp4檔案
如果不走kling流程,
像鬼故事都被kling拒絕,
只能走靜態圖片流程,
就是你常在youtube看到的長輩圖轉成長輩影片那種類型,
這個又是幾小時起跳的生成時間,
所以整個效能的問題是卡在影片生成部分,
當然這跟我的煉丹爐太老舊有關,
原本想買mac studio 256gb 就是想可以順便解決生成影片的問題
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:28:50
→ sinclaireche: 模型等級差那麼多也要直接這樣比? 101.12.129.223 06/08 11:31
推 newyorker54: reddit 有人說mac studio更慢 140.116.98.195 06/08 11:31
→ sinclaireche: 生圖和影片是GB10快 101.12.129.223 06/08 11:33
→ sinclaireche: 最佳化的部分原Po可以多花點時間 101.12.129.223 06/08 11:34
→ sinclaireche: 懶得設定不要用本地 101.12.129.223 06/08 11:34
→ newyorker54: 生成文章一般都是一到兩分鐘,會不會 140.116.98.195 06/08 11:35
→ newyorker54: 是設定的問題,建議改llama-server 140.116.98.195 06/08 11:35
→ newyorker54: 啟動,只要參數設好當成模板,每次啟 140.116.98.195 06/08 11:35
→ newyorker54: 動就是複製貼上不會太麻煩 140.116.98.195 06/08 11:35
推 CardLin: 我之前電腦跑過 ollama 是覺得異常的慢 111.243.9.138 06/08 11:36
→ CardLin: 原PO可以測一下 llama.cpp 或 vLLM 111.243.9.138 06/08 11:38
→ newyorker54: 生成文章十幾分鐘真的太慢35B大小的 140.116.98.195 06/08 11:38
→ newyorker54: 模型吃不了128gb那麼多,記憶體綽綽 140.116.98.195 06/08 11:39
→ newyorker54: 有餘,理論上純文字用不到兩分鐘,用 140.116.98.195 06/08 11:39
→ newyorker54: Hermes cli速度更快功能也更完整 140.116.98.195 06/08 11:39
→ sinclaireche: 會這麼慢通常是只用到cpu 104.28.156.240 06/08 11:39
我有空再來試試其他的工具像是llama.cpp 或 vLLM,
但是這真的不是我的流程最花時間的一塊,
其實沒那麼嚴重,
最花時間的是生成影片
我一般thinking 就要花3-5分鐘,
然後每秒鐘生成10-15個中文字,
2500個中文字數的文章大概需要花3-5分鐘,
這是用qwen3.6-35B去估算
cpu 更慢, 我可以感覺出來,
一開始跑沒有跑在GPU上面的時候,
一秒鐘大概1-5個中文字
→ newyorker54: GB10是套裝機環境相對單純,Llama, 140.116.98.195 06/08 11:41
→ newyorker54: 或vllm都不會太難 140.116.98.195 06/08 11:41
→ newyorker54: @sinclaireche 我也是這麼覺得 140.116.98.195 06/08 11:41
→ sinclaireche: 雲端旗艦模型的速度跟品質都大勝 104.28.156.240 06/08 11:44
→ sinclaireche: 價格沒差很多 104.28.156.240 06/08 11:44
→ sinclaireche: 一台GB10能跑的模型遠比雲端同等級 104.28.156.240 06/08 11:44
→ sinclaireche: 模型價格貴 104.28.156.240 06/08 11:44
→ crimsonmoon9: 雲端本地各有各的好 但是如果目的是 223.139.158.54 06/08 11:45
→ crimsonmoon9: 想改用本地省訂閱費那是不划算沒錯 223.139.158.54 06/08 11:45
的確雲端模型的速度跟品質都大勝GB10,
但是我不在乎速度,
我的掛機agent 根本不在乎速度,
真正的速度瓶頸也不是在這些地方,
是在影片生成那部分
所以如果我願意用時間速度去換取省下來的錢,
那就划算了,
我現在的做法是: 重點部位用雲端模型,
不重要的地方,
用本地LLM 慢慢生成,
品質差點沒關係,
你片子會從頭看到尾嗎?
還不都是拉一拉, 看重點幾分鐘而已
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:53:01
推 eddy13: 慢成這樣一定有問題114.137.107.127 06/08 11:53
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:57:07
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 11:58:39
→ sinclaireche: 產影片要快不如買一張好一點的卡 104.28.156.240 06/08 12:00
→ sinclaireche: 這台優點是RAM 104.28.156.240 06/08 12:00
→ sinclaireche: 除了RAM大以外 速度很慘 104.28.156.240 06/08 12:00
→ YouCantGetME: 如果沒AWS跟Jetson墊好幾年arm基礎 125.228.92.1 06/08 12:05
→ YouCantGetME: 大概要多一年到現在的"堪用"程度 125.228.92.1 06/08 12:07
推 yenchieh1102: 坐等導演 49.216.48.150 06/08 12:11
推 CardLin: 蠻想看GB10的影片成品可以作到怎樣的程度 111.243.9.138 06/08 12:22
→ saito2190: 要說速度肯定是跑不快,GB10用LPDDR5x114.137.164.229 06/08 12:55
→ saito2190: 頻寬完全比不上GDDR7,Qwen 3.6 35B-A114.137.164.229 06/08 12:55
→ saito2190: 3B的模型我自己調到最快大概66 token/114.137.164.229 06/08 12:55
→ saito2190: s (單request)114.137.164.229 06/08 12:55
→ saito2190: 如果你影片生成的時候ollama沒關掉,114.137.164.229 06/08 12:57
→ saito2190: 那有可能是慢在uni-RAM爆掉,然後一直114.137.164.229 06/08 12:57
→ saito2190: 跟硬碟SWAP的結果,這台是統一記憶體114.137.164.229 06/08 12:57
→ saito2190: ,特別容易爆掉114.137.164.229 06/08 12:57
→ ganei: 這東西記憶體頻寬只有兩百多,不用想像得太 42.79.148.56 06/08 13:16
→ ganei: 美好,重點是能跑,沒了。真的要懶乾脆用LM 42.79.148.56 06/08 13:16
→ ganei: studio 算了,還能無痛接Claude code讓你 42.79.148.56 06/08 13:16
→ ganei: 享受本地端狂燒token 的快感 42.79.148.56 06/08 13:16
我前面已經說了,
影片生成有兩個部分,
AI 的 i2v 生成是靠kling API, 跟GPU 無關,
一個request 3-5秒需要3-5分鐘,
靜態圖片轉影片是靠七年舊的 mac mini 用ffmpeg 去轉
所以跟GB10 完全無關,
我現在正在做的事情就是想把kling API 那塊轉到本地的GB10 i2v 生成,
慢沒關係,
因為kling 已經夠慢,
我的mac mini ffmpeg 也慢到哭爸
※ 編輯: waitrop (76.103.225.6 美國), 06/08/2026 13:25:00
→ pomar222: 如果要用wan之類的生影片,建議要去優 182.233.123.35 06/08 14:12
→ pomar222: 化記憶體路徑,統一記憶體PyTorch沒有優 182.233.123.35 06/08 14:12
→ pomar222: 化,會浪費不少時間 182.233.123.35 06/08 14:12
推 bizer: Gb10好玩的是可以玩cluster去搞各種優化, 114.137.216.53 06/08 15:35
→ bizer: 某些情況多台台Gb10能比得上rtx6000 pro, 114.137.216.53 06/08 15:35
→ bizer: 但對某些人來說不是玩而是被搞 114.137.216.53 06/08 15:35
推 pomar222: 是啊尤其是那個connect x7配nccl到處玩 182.233.123.35 06/08 17:33
→ pomar222: ,效率暴漲 182.233.123.35 06/08 17:33
推 yymeow: GX10不用switch的話最多就是三台堆疊 60.250.130.216 06/08 18:03
→ yymeow: 更多台就要張羅QSFP 400Gb的swicth,那東 60.250.130.216 06/08 18:09
→ yymeow: 西可不便宜 60.250.130.216 06/08 18:09
→ bbsman: Llama.cpp真的好用 114.140.89.68 06/08 18:17
推 alvinlin: 沒人關注美女圖180.177.212.126 06/08 18:34
→ spfy: 因為這裡是電瞎 便宜的記憶體和顯卡比正妹 114.136.78.254 06/08 18:59
→ spfy: 圖更能引起注意 114.136.78.254 06/08 18:59
推 pomar222: 至於推論疊多機需要自己debug,官方跟廢 101.10.246.35 06/08 19:37
→ pomar222: 物一樣,要靠社群跟自己打patch,目前四 101.10.246.35 06/08 19:37
→ pomar222: 台tp推論能動了 101.10.246.35 06/08 19:37
→ sachialanlus: 關鍵字 ollama 124.9.0.218 06/08 20:08
推 birdc: pomar大,4台stacking是串成ring嗎? 122.116.228.38 06/09 00:09
推 pomar222: 串成ring,tree没成功过,跟codex好好磨 182.233.123.35 06/09 00:13
→ pomar222: ,迟早绕出来 182.233.123.35 06/09 00:13
推 stlinman: 推薦用lama.cpp更新比較快啊!150.116.129.113 06/09 13:07
推 stlinman: 另外推薦,PTT 有 AI_Art 可以討論150.116.129.113 06/09 13:14
推 pomar222: 不知道是不是標錯價gx10 gb10這台補貨1t 182.233.123.35 06/09 21:49
→ pomar222: b版本在pchome已經到175900了 182.233.123.35 06/09 21:49
→ slein: 感覺是真的漲價,之前聽到代理商說要調漲 59.115.155.59 06/09 23:23
→ slein: ,但應該是七月後,六月維持售價但不補貨 59.115.155.59 06/09 23:23
→ slein: 。看來是之前的貨批都出完了 59.115.155.59 06/09 23:23
→ waitrop: 我買2tb版,3999 104.133.198.40 06/10 00:55
推 Baternest: 目前單台GB10能跑的最佳模型可以Google118.163.110.208 06/10 14:55
→ Baternest: DGX_Spark_Qwen3.5-122B-A10B-AR-INT4118.163.110.208 06/10 14:55