[心得] 終端AI的時代來臨了

作者neo5277 (I am an agent of chaos)

看板Stock

標題[心得] 終端AI的時代來臨了

時間Tue Apr 7 00:37:00 2026

有影片好讀版 https://reurl.cc/7EkLDD GOOGLE 真的做了一件很可怕的事情。可怕的地方，不是它又發了一個更大的模型，也不是再蓋一座更大的資料中心，而是它正在把生成式 AI 的主戰場，從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示； Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能力，Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。這代表方向已經不是概念驗證，而是平台層、模型層、工具鏈三條線一起往前推。我自己的判斷，是這個趨勢已經過了「會不會發生」的階段，進入「什麼時候大規模落地」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB，實測 Gemma 4 E2B / E4B 在量化後仍有不差的推論速度；另一邊，用 Samsung S24 Ultra 測試(有NPU ,12g記憶體) Google AI Edge Gallery，體感速度如影片我沒有使用影片加速。這兩個測試的共同訊號很清楚：只要模型夠小、量化夠深、執行框架夠貼近硬體，很多過去賴雲端 GPU 的任務，現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已經把 NPU 作為賣點之一，Google 端則直接提供 on-device generative AI 的展示與 API，這不是單點突破，而是供應鏈上下游開始對齊。模型蒸餾技術相當成熟，剪接嫁支能力，基本不是難事，這也是模型雖然小，卻一定程度上可以五臟俱全，不是五技而窮的結果。以現代科技的迭代速度，我會說三年內終端隨身 AI 助理幾乎是必然，因為經濟誘因已經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位：Meta 2025 年全年資本支出達 722.2 億美元；Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億美元；Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元；Amazon 也已公開表示 2025 年資本支出提高到 1000 億美元，且絕大部分投入 AI 資料中心。這些數字說明，雲端推理需求確實還在暴增；但也正因為暴增，雲端才更需要把一部分工作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操作代理這類高頻任務切到本地端，雲端就能把昂貴算力留給更長上下文、更大模型、更複雜的多代理工作。從資金回收角度看，終端 AI 不是雲端的對手，而是雲端資本支出的緩衝器。這也是 Google 這一步真正厲害的地方。它不是只做模型，而是同時做模型、裝置端推論框架、展示應用與開發入口。對使用者來說，AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感；對開發者來說，LLM Inference API 與 LiteRT-LM 把部署門檻往下壓。當工具鏈成形，真正的競爭就不再只是誰的基礎模型分數高，而是誰能更快把能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜再看技術面，量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立，核心就在量化。低 bit 權重早已不是新題目，但現在更值得注意的是 KV cache 壓縮。Google Research 今年公開的 TurboQuant，主打在幾乎不損失精度的前提下，大幅壓縮模型大小與 KV cache；官方直接把它定位為支援 KV cache compression 與向量搜尋的高效率壓縮方法。若這類方法進一步成熟並被主流推論框架吸收，終端裝置的瓶頸就不再只是權重能不能塞進去，而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務，接下來則可能走向真正的常駐式助理。想像一下，你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀? 或是 HALO CORTANA 真正能透過裝置上感測器，然後本地運行的AI模型，只有特殊高算力場景才要連上大腦。那可以幫你處理多少事情? 股點來了從硬體演進來看，未來三到五年最值得注意的不是單純「GPU 更大」，而是記憶體階層會被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR / CAMM2、邊緣裝置上的低功耗加速器，會逐漸圍繞同一件事最佳化：如何讓 2B、4B、8B 級別模型在可接受的功耗內常駐，並且支援多模態輸入。 Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與記憶體需求的設計，代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料，而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。技術正在濃縮，精煉，可以說是進入真正軟硬整合的蒸餾狀態。因此，邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板，甚至各種專用 MCU + NPU 模組，都有機會承接某一層 AI 任務。這裡要分清楚：它們未必適合跑完整的通用聊天模型，但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊都納入同一套邊緣開發敘事；而裝置端增量訓練也已經出現在官方文件中。這代表邊緣設備未來不只是推理端，還可能具備有限度的個人化能力，也意味著統用標準格式傳遞的出現，早期的xml，網路時代的json,或是二進位的msgpack,甚至更新的規格都會快速出現。如果把資金回收與實際應用放在一起看，未來最合理的投資方向，不是再追一輪只服務資料中心的單一敘事，而是轉往終端整合。原因很簡單：終端 AI 比雲端 AI 更接近現金流。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備，每一個品類都能把 AI 變成實際賣點，進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務訂閱。雲端是必要基礎設施，但終端才是最容易把模型能力轉成大量出貨與長期黏著的地方。這不是說資料中心不重要，而是下一輪回收率更高的競爭，很可能發生在誰能把 AI 變成「隨身、離線、低延遲、可私有化」的日常能力。這一點，Google 現在其實已經先走了。我的推論很直接：三年內，本地端隨身 AI 助理大規模出現，機率極高；五年內，終端裝置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣，從加分項變成標配。真正值得看的公司與產品，不會只是在資料中心買到最多 GPU 的那一批，而是能把模型壓縮、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手機上看到的體感，不是例外，而是前兆。從模型，到服務，到裝置GOOGLE 現在這一步跟把安卓放出去是一樣.... 以我們開發者來說，終端可以應用的場景太多太多了。但我還是會覺得會有大修正，因為目前從上到下，可以整合所有的只有GOOGLE 他只有輸B端應用跟服務，待在業界的都知道，GOOGLE最近很用力再衝這塊真的是不得不佩服老巴跟他的團隊..... -- WHY SO SERIOUS??? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html

→ tamama000 : 可以請AI幫我總結10字以內嗎 04/07 00:38

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52 賣掉其他六巨頭，等崩盤後全力買GOOGLE 台灣就買可以拿到他代工的跟GG ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47

推 s8911090 : 內文都在講google 但語氣卻是chatgpt04/07 00:41

→ Brioni : PC黃金時代再錄音？04/07 00:42

→ Brioni : 再臨04/07 00:42

推 benen : google最近很勤勞啊，不是還大力推薦自家若有老電04/07 00:44

→ benen : 腦，可以改用chrome os再戰幾年 04/07 00:44

→ perlone : 記憶體又要缺貨了04/07 00:45

推 sdbb : 歐印GGLL最快04/07 00:46

推 miloisgood : 這樣機器人會先飛天吧04/07 00:47

基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話或著pi系列做核心不難，難的是電機持久度，跟瞬時反應

推 bcismylove : 總結歐印GOOGLE04/07 00:49

推 niniko : 好，買GOOX04/07 00:49

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57

推 ga278057 : 有終端機器人嗎04/07 00:52

推 offstage : 可以請AI告訴我明天要買漲還是買跌嘛04/07 00:53

推 brightest : 問題是壹般人還是不知道ai除了能看廢片能幹嘛04/07 00:53

推 jack55777100: 總結就是google是神要歐印04/07 00:54

→ JoeyChen : 照AI社群的開發熱情所有的可能性都會比預測的快吧 04/07 00:55

推 bobboy8755 : 可以離線畫色圖吃到飽的意思嗎？(興奮04/07 01:00

生成圖還要一下下擴散模型比較麻煩

→ kuninaka : 又是ＡＩ生成的文章04/07 01:01

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38

推 SodaMan : 夢裏都有，成本不是消失是轉嫁到其他費用 04/07 01:06

→ bollar7 : google要漲了嗎，好像沒... 04/07 01:06

→ SodaMan : 如果你理解AI 架構，就不會寫出這種結論 04/07 01:07

純推論應該還好終端版本跟OS一樣持續更新釋出就好

推 BC0710 : 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏但 04/07 01:08

→ BC0710 : 餅越來越大是一定 04/07 01:08

→ aloness : 終端應用，尤其手持產品的天敵就是耗電量 04/07 01:09

(鼓掌 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29

→ aloness : 下一個問題則是權限，誰會喜歡背景程式吃掉一大堆04/07 01:12

→ aloness : 資源，跟BT下載不會給手持3C一樣概念04/07 01:12

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01

→ Obama19 : 想太多了終究只是個chatbot04/07 01:15

openclaw可以做到的，我都可以開發後在手機上做到一樣的事情，光是Google AI edge garlley就開放了下面這些給你體驗了 https://i.mopix.cc/1cdBfD.jpg

連控制裝置都有介接local api就好 ※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49

噓 strlen : 第一天就載了以一般消費者能裝的版本基本沒屁用04/07 01:29

→ strlen : 又不是人人標配5090 就算是5090 模型也跟腦殘一樣 04/07 01:29

這跟5090沒有關係啊光是 s24u 也滿普通的

→ strlen : 更別說agent功能想太多再等5年04/07 01:29

→ SodaMan : 推論的基礎是背後的參考資料，你無法帶著龐大的資 04/07 01:30

→ SodaMan : 料落地，那就是假像而已04/07 01:30

蒸餾跟微調剪枝以後的slm完全就是本體 ....哪裡需要什麼參考資料，這跟RAG不一樣這是已經訓練好，蒸餾各種功能的模型，你不會在手機上做微調的，手機上要實作 RAG也不會難，以我這支手機512g的硬碟空間可以放專屬的KM了，終端場景需要什麼龐大的資料，還是沒有辦法想像，最多做個即時聯網或是連網的資料存取api透過網路加載跟google地圖一樣而已.... ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32

推 xzero0911 : 5090跑31B VRAM還不夠用掛OLLAMA要64G 04/07 01:37

→ xzero0911 : 26B效果倒是真的不錯回應又快04/07 01:37

70%的商業應用場景其實不需要模型的多數能力啊，這點終端上本來有的能力結合起來這個AI核心就好了。

→ yunf : 浪費時間寫那麼多廢話幹嘛？04/07 01:37

因為玩的滿興奮的 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56

→ yunf : 續航力問題沒辦法解決講再多你也只是空談 04/07 01:40

推 furture84 : 有消息稱google的演算法是抄襲某研究生，而研究生04/07 01:48

→ furture84 : 的演算法是開源的04/07 01:48

→ furture84 : Rabbit 04/07 01:48

→ furture84 : RabitQ 04/07 01:48

→ SodaMan : 不要離題了，模型蒸餾目的是節省算力成本，這不代 04/07 01:49

→ SodaMan : 表著可以用低成本建置地端的AI ，知識蒸餾只是走了04/07 01:49

→ SodaMan : 捷徑並不是捨去成本04/07 01:49

推 lnonai : MTK:04/07 01:52

推 magic543 : 實際測試過小模型沒多大屁用直接用線上AI就可以04/07 02:00

→ magic543 : 真的要辦公還是需要PC 唯一重點是記憶體真的被錯殺04/07 02:01

噓 haley80208 : 整天吹所以發布會的即時翻譯什麼時後能做好 04/07 02:03

推 waitrop : 為何會提到蒸餾？谷歌這技術跟edge 端AI 跟蒸餾完 04/07 02:04

→ waitrop : 全沒有關係，簡單說就是模型小到能在edge 執行，效04/07 02:04

→ waitrop : 能又超強，跟蒸餾無關04/07 02:04

前兩代都是蒸餾的啊... 都是從teacher學習部分能力啊..

推 hc20016 : 結論就是需要很多很多的記憶體 04/07 02:06

→ hc20016 : 記憶卡蛙團結強大一張不賣 04/07 02:06

※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53

推 qoojo2002 : 現在買甲骨文很便宜 04/07 02:29

推 saito2190 : 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性， 04/07 02:35

→ saito2190 : 他本身不用太聰明沒關係，反正Skill時代都是拿已經 04/07 02:35

→ saito2190 : 寫好的Skill給他跑，他只要能在正確的時間調用正確 04/07 02:35

→ saito2190 : 的工具，那就能完成大部分的任務，真正需要深度思 04/07 02:35

→ saito2190 : 考+研究的再去調用外部大模型就好 04/07 02:35

噓 holysong : 一隻手機20萬？ 04/07 02:43

推 nineflower : 終端AI現在就能做阿，很佔地方而已，手機終端還要等 04/07 02:51

→ nineflower : 硬體奇異點突破 04/07 02:51

推 bala045 : 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句 04/07 02:52

→ bala045 : 子 04/07 02:52

→ zero790425 : 在吹估狗卻用別家AI填充內文 bad 04/07 03:07

→ sonatafm2 : 所以沒那麼快落實到手持裝置的 04/07 03:15

推 TameFoxx : 無論怎搞你的電費都還是比雲端API還貴 04/07 03:28

→ budaixi : == 消費性電子股價都跌爛了，就你在吹 04/07 03:44

→ kingofsdtw : 增加手機耗電嗎？ apple笑而不語 04/07 04:08

噓 space20021 : 你這篇也是AI寫的 04/07 04:22

→ CH1SIR : 置板凳！ 04/07 04:35

→ CH1SIR : 五年後再回來這篇 04/07 04:35

推 kkman2 : 覺得遲早的事情 04/07 04:56

→ mtmmy : Mac Mini 16G RAM跑Gemma 4還是好吃力 04/07 05:16

推 breathair : 谷歌這版本基本就是給開發者玩的，看能玩出什麼花樣 04/07 05:23

→ breathair : ，有人調整權重讓他接受一些惡意指令（駭客攻擊）， 04/07 05:23

→ breathair : 有人把它拿進公司封閉環境裡面做工作流自動化，綁定 04/07 05:23

→ breathair : 開發者生態，目的是為了搶佔開發者生態為目的 04/07 05:23

→ breathair : 日後終端算力肯定越來越高，模型越做越小。那個時候 04/07 05:23

→ breathair : 這東西就有機會成為可以裝在所有終端的安卓2.0（絕 04/07 05:23

→ breathair : 對不是現在，現在在手機上還不如免費版的Gemini) 04/07 05:23

→ breathair : 我買了許多谷歌，但谷歌現階段真不看這東西，他最重 04/07 05:25

→ breathair : 要的業務一樣是廣告跟大模型能力來保護自己的搜索業 04/07 05:25

→ breathair : 務，這只是眾多佈局中的一個細分賽道 04/07 05:25

推 cy168 : 沒有open ai，google 當初並不想推llm ai，因為商 04/07 05:36

→ cy168 : 業獲利整個被侵蝕。現在又準備建構讓大家離不開的 04/07 05:36

→ cy168 : 生態鏈了。 04/07 05:36

噓 alice1967 : 共享的資源還是最經濟實惠的，終端只是最後輸出跟顯 04/07 05:37

→ alice1967 : 示工具，別想太多！ 04/07 05:37

→ guanting886 : SLM配點RAG最多只能做到志工媽媽角色 04/07 06:13

→ guanting886 : 能做小就幾個方向縮小參數量、量化精度損失的部分 04/07 06:17

→ guanting886 : 就你看你調效的取捨 04/07 06:17

→ guanting886 : 上下文的能吃的量就決定他能做的事很有限了 04/07 06:18

推 vovovolibear: 你的眼光很棒，只是目前我們連夏天有沒有油可以發電 04/07 06:55

→ vovovolibear: 都不知道 04/07 06:55

推 zenixls2 : meta的llama當初被吹多高，你真的覺得本地端模型炒 04/07 07:14

→ zenixls2 : 得起來？ 04/07 07:14

→ zenixls2 : esp32接大模型表現比Mac m3,4跑本地端模型好時，你 04/07 07:20

→ zenixls2 : 還想用本地端嗎？ 04/07 07:20

推 mdkn35 : 早就有了吧就準確率問題 04/07 07:24

推 efkfkp : 所以google到底還能不能買？有翻倍的可能嗎？還是股 04/07 07:31

→ efkfkp : 價就這樣了 04/07 07:31

→ wed1979 : 算力中心一直建，是有什麼應用已經落地需要大算力.. 04/07 07:34

→ wed1979 : .sora不是燒完了 04/07 07:34

→ CYL009 : 之前豆包手機就是了只不過會被其他大企業抵制看谷 04/07 07:38

→ CYL009 : 歌怎麼玩 04/07 07:38

噓 gaussjordan : 你哪位 04/07 07:45

推 solarpower : 感謝分享與測試~謝謝 04/07 07:47

推 john801110 : 阿斯拉？ 04/07 07:52

推 roiop710 : 好的看來壓身家衝記憶體了 04/07 07:52

噓 fajita : 吹成這樣，看了都覺得好笑，跟那個死臉AI一樣 04/07 07:54

噓 jas258 : 這種這不是…而是的文體是不是都是AI啊 04/07 07:59

推 secrectlife : 好像廢話太多了 04/07 08:11

推 ahg : 普遍消費者用與不用的差別？這滲透率跟商轉能這麼 04/07 08:12

→ ahg : 樂觀？ 04/07 08:12

推 CCH2022 : 要多久才能twitch YouTube直播做到即時翻譯 04/07 08:18

噓 alice1967 : 你要知道公司靠什麼收費，是廣告不是手機，既然如此 04/07 08:26

→ alice1967 : ，搞終端就是傻子，沒有收入搞個屁！不要淨用AI寫幻 04/07 08:26

→ alice1967 : 想文 04/07 08:26

推 ikariamman : 台灣早有啦 04/07 08:33

噓 Porops : 有夠AI的文章，業內的根本不可能有這樣的結論 04/07 08:45

→ ma721 : 電池沒解決前都不可能 04/07 08:53

推 FatFatQQ : https://i.verb.tw/gjJ5d3SO.jpg 04/07 08:56

推 orange7986 : 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑 04/07 09:15

→ orange7986 : 超慢…還是用雲端好 04/07 09:15

推 joygo : 沒噴就是跑起來其實還好 04/07 09:22

→ joygo : 出了之後就下載的心得是如果你拿去買顯卡的錢調 04/07 09:23

→ joygo : 閱應該很夠了老黃越出token只會越便宜 04/07 09:23

💰 股票 Stock 版：熱門文章

💰 股票 Stock 版：更多文章