🔥 PTT.BEST 批踢踢爆文 💬 八卦 Gossiping 😊 希洽 C_Chat 💰 股票 Stock 🏠 房屋 home-sale 🏀 美國職籃 NBA ⚾ 棒球 Baseball 👛 省錢 Lifeismoney 🚗 汽車 car 😡 政黑 HatePolitics 💻 電蝦 PC_Shopping 🥰 韓星 KoreaStar ✨ 英雄聯盟 LoL 🍿 電影 movie 🪖 軍事 Military 📡 通訊 MobileComm 🏀 台籃 basketballTW 🍼 寶媽 BabyMother 🇯🇵 日旅 Japan_Travel 🏭 科技 Tech_Job 👉 男女 Boy-Girl 👉 真香 CheerGirlsTW 👧 女孩 WomenTalk 👻 媽佛 marvel 💳 卡版 creditcard 👉 NS NSwitch 👉 PS5 PlayStation 👉 大氣 TY_Research 👉 婚姻 marriage 👉 台南 Tainan 👉 台中 TaichungBun 👉 Steam Steam 👉 高雄 Kaohsiung 👉 羽球 Badminton 👉 超商 CVS 👉 米哈遊 miHoYo 👉 iOS 👉 兄弟 Elephants 👉 日劇 Japandrama 👉 玄幻 CFantasy 👉 ES e-shopping 👉 WOW 👉 遊戲交易 Gamesale 👉 4X BaseballXXXX 👉 Lakers 👉 韓劇 KoreaDrama 👉 汽車買賣 CarShop 👉 機車 biker 👉 新竹 Hsinchu 👉 美保 BeautySalon 👉 串流 OTT 👉 歐美影集 EAseries 👉 手機交易 mobilesales 👉 健身 MuscleBeach 👉 MacShop 👉 Lions 👉 FGO FATE_GO 👉 中劇 China-Drama 👉 數位貨幣 DigiCurrency 👉 暗黑 DIABLO 👉 實習教師 studyteacher 👉 航空 Aviation 👉 藝文票券轉售 Drama-Ticket 👉 韓綜 KR_Entertain 👉 美妝 MakeUp 👉 速食 fastfood 👉 手錶 watch 👉 體適能 FITNESS 👉 攝影 DSLR 👉 Headphone 👉 嘻哈 Hip-Hop 👉 轉珠 PuzzleDragon 👉 美食 Food 👉 蔚藍 BlueArchive 👉 數位相機交易 DC_SALE 👉 筆電蝦 nb-shopping 👉 軟工 Soft_Job 👉 汪踢 Wanted 👉 台綜 TW_Entertain 👉 坂道閒聊 SakaTalk 👉 貓咪 cat 👉 日GO BabyProducts 👉 TypeMoon 👉 MLB 👉 職場 Salary 👉 臺劇 TaiwanDrama 👉 海賊王 ONE_PIECE 👉 PMGO PokemonGO 👉 國營 Gov_owned 👉 碧航 AzurLane 👉 家電 E-appliance 👉 布蘭德 Brand 👉 DMMG DMM_GAMES 👉 贈送 give 👉 神魔 ToS 👉 銀行服務板 Bank_Service 👉 原創 YuanChuang 👉 期權 Option 👉 重機 SuperBike
有影片好讀版 https://reurl.cc/7EkLDD GOOGLE 真的做了一件很可怕的事情。 可怕的地方,不是它又發了一個更大的模型,也不是再蓋一座更大的資料中心,而是它正 在把生成式 AI 的主戰場,從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把 「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示; Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能 力,Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。 這代表方向已經不是概念驗證,而是平台層、模型層、工具鏈三條線一起往前推。 我自己的判斷,是這個趨勢已經過了「會不會發生」的階段,進入「什麼時候大規模落地 」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,實測 Gemma 4 E2B / E4B 在量化後仍有不差的推論速度;另一邊,用 Samsung S24 Ultra 測試(有NPU ,12g記憶體) Google AI Edge Gallery,體感速度如影片我沒有使用影片加速。 這兩個測試的共同訊號很清楚:只要模型夠小、量化夠深、執行框架夠貼近硬體,很多過 去 賴雲端 GPU 的任務,現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已 經把 NPU 作為賣點之一,Google 端則直接提供 on-device generative AI 的展示與 API,這不是單點突破,而是供應鏈上下游開始對齊。 模型蒸餾技術相當成熟,剪接嫁支能力,基本不是難事,這也是模型雖然小,卻一定程度 上可以五臟俱全,不是五技而窮的結果。 以現代科技的迭代速度,我會說三年內終端隨身 AI 助理幾乎是必然,因為經濟誘因已 經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位:Meta 2025 年全年資 本支出達 722.2 億美元;Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億 美元;Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元;Amazon 也已 公開表示 2025 年資本支出提高到 1000 億美元,且絕大部分投入 AI 資料中心。 這些數字說明,雲端推理需求確實還在暴增;但也正因為暴增,雲端才更需要把一部分工 作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操 作代理這類高頻任務切到本地端,雲端就能把昂貴算力留給更長上下文、更大模型、 更複雜的多代理工作。 從資金回收角度看,終端 AI 不是雲端的對手,而是雲端資本支出的緩衝器。 這也是 Google 這一步真正厲害的地方。它不是只做模型,而是同時做模型、裝置端推論 框架、展示應用與開發入口。 對使用者來說,AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感; 對開發者來說,LLM Inference API 與 LiteRT-LM 把部署門 檻往下壓。當工具鏈成形,真正的競爭就不再只是誰的基礎模型分數高,而是誰能更快把 能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。 如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜 再看技術面,量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立 ,核心就在量化。低 bit 權重早已不是新題目,但現在更值得注意的是 KV cache 壓縮 。Google Research 今年公開的 TurboQuant,主打在幾乎不損失精度的前提下,大幅壓 縮模型大小與 KV cache;官方直接把它定位為支援 KV cache compression 與向量搜尋 的高效率壓縮方法。 若這類方法進一步成熟並被主流推論框架吸收,終端裝置的瓶頸就不再只是權重能不能塞 進去,而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓 低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務,接下來則 可能走向真正的常駐式助理。 想像一下,你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀? 或是 HALO CORTANA 真正能透過裝置上感測器,然後本地運行的AI模型,只有特殊高算力 場景才要連上大腦。那可以幫你處理多少事情? 股點來了 從硬體演進來看,未來三到五年最值得注意的不是單純「GPU 更大」,而是記憶體階層會 被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR / CAMM2、邊緣裝置上的低功耗加速器,會逐漸圍繞同一件事最佳化:如何讓 2B、4B、8B 級別模型在可接受的功耗內常駐,並且支援多模態輸入。 Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與 記憶體需求的設計,代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料 ,而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。 技術正在濃縮,精煉,可以說是進入真正軟硬整合的蒸餾狀態。 因此,邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板,甚至各種專用 MCU + NPU 模組,都有機會承接某一層 AI 任務。這裡要分清楚:它們未必適合跑完整的 通用聊天模型,但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單 代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊 都納入同一套邊緣開發敘事;而裝置端增量訓練也已經出現在官方文件中。 這代表邊緣設備未來不只是推理端,還可能具備有限度的個人化能力,也意味著統用標準 格式傳遞的出現,早期的xml,網路時代的json,或是二進位的msgpack,甚至更新的規格都 會快速出現。 如果把資金回收與實際應用放在一起看,未來最合理的投資方向,不是再追一輪只服務資 料中心的單一敘事,而是轉往終端整合。原因很簡單:終端 AI 比雲端 AI 更接近現金流 。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備,每一個品 類都能把 AI 變成實際賣點,進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務 訂閱。 雲端是必要基礎設施,但終端才是最容易把模型能力轉成大量出貨與長期黏著的地 方。這不是說資料中心不重要,而是下一輪回收率更高的競爭,很可能發生在誰能把 AI 變成「隨身、離線、低延遲、可私有化」的日常能力。這一點,Google 現在其實已經先 走了。 我的推論很直接:三年內,本地端隨身 AI 助理大規模出現,機率極高;五年內,終端裝 置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣,從加分項變成標配。真正 值得看的公司與產品,不會只是在資料中心買到最多 GPU 的那一批,而是能把模型壓縮 、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手 機上看到的體感,不是例外,而是前兆。 從模型,到服務,到裝置GOOGLE 現在這一步跟把安卓放出去是一樣.... 以我們開發者來說,終端可以應用的場景太多太多了。 但我還是會覺得會有大修正,因為目前從上到下,可以整合所有的 只有GOOGLE 他只有輸B端應用跟服務,待在業界的都知道,GOOGLE最近很用力再衝這塊 真的是不得不佩服老巴跟他的團隊..... -- WHY SO SERIOUS??? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html
tamama000 : 可以請AI幫我總結10字以內嗎 04/07 00:38
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52 賣掉其他六巨頭,等崩盤後全力買GOOGLE 台灣就買可以拿到他代工的跟GG ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47
s8911090 : 內文都在講google 但語氣卻是chatgpt04/07 00:41
Brioni : PC黃金時代再錄音?04/07 00:42
Brioni : 再臨04/07 00:42
benen : google最近很勤勞啊,不是還大力推薦自家若有老電04/07 00:44
benen : 腦,可以改用chrome os再戰幾年 04/07 00:44
perlone : 記憶體又要缺貨了04/07 00:45
sdbb : 歐印GGLL最快04/07 00:46
miloisgood : 這樣機器人會先飛天吧04/07 00:47
基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話 或著pi系列 做核心不難,難的是電機持久度,跟瞬時反應
bcismylove : 總結 歐印GOOGLE04/07 00:49
niniko : 好,買GOOX04/07 00:49
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57
ga278057 : 有終端機器人嗎04/07 00:52
offstage : 可以請AI告訴我明天要買漲還是買跌嘛04/07 00:53
brightest : 問題是壹般人還是不知道ai除了能看廢片能幹嘛04/07 00:53
jack55777100: 總結就是google是神要歐印04/07 00:54
JoeyChen : 照AI社群的開發熱情 所有的可能性都會比預測的快吧 04/07 00:55
bobboy8755 : 可以離線畫色圖吃到飽的意思嗎?(興奮04/07 01:00
生成圖還要一下下 擴散模型比較麻煩
kuninaka : 又是AI生成的文章04/07 01:01
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38
SodaMan : 夢裏都有,成本不是消失是轉嫁到其他費用 04/07 01:06
bollar7 : google要漲了嗎,好像沒... 04/07 01:06
SodaMan : 如果你理解AI 架構,就不會寫出這種結論 04/07 01:07
純推論應該還好 終端版本跟OS一樣持續更新釋出就好
BC0710 : 可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏 但 04/07 01:08
BC0710 : 餅越來越大是一定 04/07 01:08
aloness : 終端應用,尤其手持產品的天敵就是耗電量 04/07 01:09
(鼓掌 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29
aloness : 下一個問題則是權限,誰會喜歡背景程式吃掉一大堆04/07 01:12
aloness : 資源,跟BT下載不會給手持3C一樣概念04/07 01:12
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01
Obama19 : 想太多了 終究只是個chatbot04/07 01:15
openclaw可以做到的,我都可以開發後在手機上做到一樣的事情,光是Google AI edge garlley就開放了下面這些給你體驗了 https://i.mopix.cc/1cdBfD.jpg
連控制裝置都有 介接local api就好 ※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49
strlen : 第一天就載了 以一般消費者能裝的版本 基本沒屁用04/07 01:29
strlen : 又不是人人標配5090 就算是5090 模型也跟腦殘一樣 04/07 01:29
這跟5090沒有關係啊 光是 s24u 也滿普通的
strlen : 更別說agent功能 想太多 再等5年04/07 01:29
SodaMan : 推論的基礎是背後的參考資料,你無法帶著龐大的資 04/07 01:30
SodaMan : 料落地,那就是假像而已04/07 01:30
蒸餾跟微調剪枝以後的slm完全就是本體 ....哪裡需要什麼參考資料,這跟RAG不一樣 這是已經訓練好,蒸餾各種功能的模型 ,你不會在手機上做微調的,手機上要實作 RAG也不會難,以我這支手機512g的硬碟空間可以放專屬的KM了,終端場景需要什麼龐大 的資料,還是沒有辦法想像,最多做個即時聯網或是連網的資料存取api透過網路加載 跟google地圖一樣而已.... ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32
xzero0911 : 5090跑31B VRAM還不夠用 掛OLLAMA要64G 04/07 01:37
xzero0911 : 26B效果倒是真的不錯回應又快04/07 01:37
70%的商業應用場景其實不需要模型的多數能力啊,這點終端上本來有的能力結合起來這 個AI核心就好了。
yunf : 浪費時間寫那麼多廢話幹嘛?04/07 01:37
因為玩的滿興奮的 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56
yunf : 續航力問題沒辦法解決講再多你也只是空談 04/07 01:40
furture84 : 有消息稱google的演算法是抄襲某研究生,而研究生04/07 01:48
furture84 : 的演算法是開源的04/07 01:48
furture84 : Rabbit 04/07 01:48
furture84 : RabitQ 04/07 01:48
SodaMan : 不要離題了,模型蒸餾目的是節省算力成本,這不代 04/07 01:49
SodaMan : 表著可以用低成本建置地端的AI ,知識蒸餾只是走了04/07 01:49
SodaMan : 捷徑並不是捨去成本04/07 01:49
lnonai : MTK:04/07 01:52
magic543 : 實際測試過 小模型沒多大屁用 直接用線上AI就可以04/07 02:00
magic543 : 真的要辦公 還是需要PC 唯一重點是記憶體真的被錯殺04/07 02:01
haley80208 : 整天吹 所以發布會的即時翻譯什麼時後能做好 04/07 02:03
waitrop : 為何會提到蒸餾?谷歌這技術跟edge 端AI 跟蒸餾完 04/07 02:04
waitrop : 全沒有關係,簡單說就是模型小到能在edge 執行,效04/07 02:04
waitrop : 能又超強,跟蒸餾無關04/07 02:04
前兩代都是蒸餾的啊... 都是從teacher學習部分能力啊..
hc20016 : 結論就是 需要很多很多的記憶體 04/07 02:06
hc20016 : 記憶卡蛙團結強大 一張不賣 04/07 02:06
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53
qoojo2002 : 現在買甲骨文很便宜 04/07 02:29
saito2190 : 我覺得邊緣裝置AI重點會在Agent能力跟指令服從性, 04/07 02:35
saito2190 : 他本身不用太聰明沒關係,反正Skill時代都是拿已經 04/07 02:35
saito2190 : 寫好的Skill給他跑,他只要能在正確的時間調用正確 04/07 02:35
saito2190 : 的工具,那就能完成大部分的任務,真正需要深度思 04/07 02:35
saito2190 : 考+研究的再去調用外部大模型就好 04/07 02:35
holysong : 一隻手機20萬? 04/07 02:43
nineflower : 終端AI現在就能做阿,很佔地方而已,手機終端還要等 04/07 02:51
nineflower : 硬體奇異點突破 04/07 02:51
bala045 : 不是oooo 而是xxxx 可不可以讓你AI 不要再生這種句 04/07 02:52
bala045 : 子 04/07 02:52
zero790425 : 在吹估狗卻用別家AI填充內文 bad 04/07 03:07
sonatafm2 : 所以沒那麼快落實到手持裝置的 04/07 03:15
TameFoxx : 無論怎搞 你的電費都還是比雲端API還貴 04/07 03:28
budaixi : == 消費性電子股價都跌爛了,就你在吹 04/07 03:44
kingofsdtw : 增加手機耗電嗎? apple笑而不語 04/07 04:08
space20021 : 你這篇也是AI寫的 04/07 04:22
CH1SIR : 置板凳! 04/07 04:35
CH1SIR : 五年後再回來這篇 04/07 04:35
kkman2 : 覺得遲早的事情 04/07 04:56
mtmmy : Mac Mini 16G RAM跑Gemma 4還是好吃力 04/07 05:16
breathair : 谷歌這版本基本就是給開發者玩的,看能玩出什麼花樣 04/07 05:23
breathair : ,有人調整權重讓他接受一些惡意指令(駭客攻擊), 04/07 05:23
breathair : 有人把它拿進公司封閉環境裡面做工作流自動化,綁定 04/07 05:23
breathair : 開發者生態,目的是為了搶佔開發者生態為目的 04/07 05:23
breathair : 日後終端算力肯定越來越高,模型越做越小。那個時候 04/07 05:23
breathair : 這東西就有機會成為可以裝在所有終端的安卓2.0(絕 04/07 05:23
breathair : 對不是現在,現在在手機上還不如免費版的Gemini) 04/07 05:23
breathair : 我買了許多谷歌,但谷歌現階段真不看這東西,他最重 04/07 05:25
breathair : 要的業務一樣是廣告跟大模型能力來保護自己的搜索業 04/07 05:25
breathair : 務,這只是眾多佈局中的一個細分賽道 04/07 05:25
cy168 : 沒有open ai,google 當初並不想推llm ai,因為商 04/07 05:36
cy168 : 業獲利整個被侵蝕。現在又準備建構讓大家離不開的 04/07 05:36
cy168 : 生態鏈了。 04/07 05:36
alice1967 : 共享的資源還是最經濟實惠的,終端只是最後輸出跟顯 04/07 05:37
alice1967 : 示工具,別想太多! 04/07 05:37
guanting886 : SLM配點RAG最多只能做到志工媽媽角色 04/07 06:13
guanting886 : 能做小就幾個方向 縮小參數量、量化精度損失的部分 04/07 06:17
guanting886 : 就你看你調效的取捨 04/07 06:17
guanting886 : 上下文的能吃的量就決定他能做的事很有限了 04/07 06:18
vovovolibear: 你的眼光很棒,只是目前我們連夏天有沒有油可以發電 04/07 06:55
vovovolibear: 都不知道 04/07 06:55
zenixls2 : meta的llama當初被吹多高,你真的覺得本地端模型炒 04/07 07:14
zenixls2 : 得起來? 04/07 07:14
zenixls2 : esp32接大模型表現比Mac m3,4跑本地端模型好時,你 04/07 07:20
zenixls2 : 還想用本地端嗎? 04/07 07:20
mdkn35 : 早就有了吧 就準確率問題 04/07 07:24
efkfkp : 所以google到底還能不能買?有翻倍的可能嗎?還是股 04/07 07:31
efkfkp : 價就這樣了 04/07 07:31
wed1979 : 算力中心一直建,是有什麼應用已經落地需要大算力.. 04/07 07:34
wed1979 : .sora不是燒完了 04/07 07:34
CYL009 : 之前豆包手機就是了 只不過會被其他大企業抵制 看谷 04/07 07:38
CYL009 : 歌怎麼玩 04/07 07:38
gaussjordan : 你哪位 04/07 07:45
solarpower : 感謝分享與測試~謝謝 04/07 07:47
john801110 : 阿斯拉? 04/07 07:52
roiop710 : 好的看來壓身家衝記憶體了 04/07 07:52
fajita : 吹成這樣,看了都覺得好笑,跟那個死臉AI一樣 04/07 07:54
jas258 : 這種 這不是…而是的文體是不是都是AI啊 04/07 07:59
secrectlife : 好像廢話太多了 04/07 08:11
ahg : 普遍消費者用與不用的差別?這滲透率跟商轉能這麼 04/07 08:12
ahg : 樂觀? 04/07 08:12
CCH2022 : 要多久才能twitch YouTube直播做到即時翻譯 04/07 08:18
alice1967 : 你要知道公司靠什麼收費,是廣告不是手機,既然如此 04/07 08:26
alice1967 : ,搞終端就是傻子,沒有收入搞個屁!不要淨用AI寫幻 04/07 08:26
alice1967 : 想文 04/07 08:26
ikariamman : 台灣早有啦 04/07 08:33
Porops : 有夠AI的文章,業內的根本不可能有這樣的結論 04/07 08:45
ma721 : 電池沒解決前都不可能 04/07 08:53
FatFatQQ : https://i.verb.tw/gjJ5d3SO.jpg 04/07 08:56
orange7986 : 我用 Mac Mini m4 pro 跑8B 模型很快但很笨 30B跑 04/07 09:15
orange7986 : 超慢…還是用雲端好 04/07 09:15
joygo : 沒噴就是跑起來其實還好 04/07 09:22
joygo : 出了之後就下載的心得是 如果你拿去買顯卡的錢 調 04/07 09:23
joygo : 閱應該很夠了 老黃越出token只會越便宜 04/07 09:23

💰 股票 Stock 版:熱門文章

💰 股票 Stock 版:更多文章