Re: [新聞] 甲骨文股價暴跌超10%！訂單積壓越來越多「燒錢」砸AI

作者minazukimaya (水無月真夜)

看板Stock

標題Re: [新聞] 甲骨文股價暴跌超10%！訂單積壓越來越多「燒錢」砸AI

時間Sat Dec 13 03:06:12 2025

※ 引述《LDPC (Channel Coding)》之銘言： : @@我是不知道其他世界線我們公司有引入各種AI Tool : 比方說在slack 我要開一個data bucket權限 (公司機密資料權限最高級那種) : 來測試我新模型然後我就slack打serval (IT機器人公司方案) : 他就開始一步步核對然後最後一步還跟我說有各種data access 時間限制 : 然後就幫我設定好然後最一關簽呈就是人類IT 這些步驟效率超越傳統IT很多 : 隨時都可以叫IT機器人幫我處理各種事情前置作業大量弄好只要一兩個人類做最後確認 : 同樣的我在openai企業版(有專門設計給企業版) 這個整合內部公司所有文件資料 : 有一次我要設計模型我就問這方面模型有誰設計過結果他就拉出過去 : 三年各種歷史設計報個還有各種benchmark 因為openai企業版可以整合公司資料庫 : 一下子我就能站在過去歷史巨人不需要去問哪個部門之前幹過啥 : ai coding現在最大用途就是寫測試工具真他x的好用設計模型完之後叫ai幫我寫 : script去做下游端大量測試 : 其他ai tool還有infenrece端可以直接調用prompt和觀察模型反應以及notion : 這種線上報告也引用自家ai tool 快速搜尋資料都挺方便 : 然後我們自己設計給下游顧客的ai tool 如果顧客說他工作時間沒縮短 : 那我們就拿不下訂單現在垂直整合領域已經殺到紅血每個tool 越蓋越先進QQ : 我好想躺平已經每天工時飆到16hr....... 改天再寫寫去NeurIPS看到的跡象 : Hinton/Jeff Dean/Yoshua Bengio/何凱明任何你知道大神都去這今年NeurIPS : 結論就是大廠真的要幹架了 Google DeepMind新政策禁止發paper : QQ 不發paper延伸意義就是現在開始狗家不會在開放他們自家模型設計秘密 : 目標就是要胖揍開放愛和其他競爭者... : 目前狗家大量研究員生氣中這次還有很多菁英邀請制度線下聚會跑去蹭了NV/META : 看到一堆海外的博士生在現場跪求進去Meta 線下聚會.......QQ : 據說開放愛線下聚會是最難進去的連地點和門路在哪都不知只能被動邀請沒關係，偷偷告訴你一個Insight 今年NeurIPS 2025有一篇超重量級的論文 Introducing Nested Learning 這篇文論的重要程度不亞於Attention is all you need 甚至可以說有過之而無不及 Transfomer架構只是發明了蒸氣機 Nested Learning這篇論文，簡直就是熱力學定律的等級了基本上等於宣告Transformer架構過時了(因為是一種扁平和單一頻率的特例) 未來三到五年，全面轉向Nested Learning的時代以下文字是我先寫一版，再請Gemini潤稿的洞察 --------這是AI潤稿的分隔線-------- 當前 AI 發展正受制於一道物理鐵律：記憶體牆（Memory Wall）。傳統 Transformer 架構依賴 KV Cache 維持上下文，這本質上是一種「以頻寬換取長度」的低效策略。隨著上下文長度 T 的增加，Attention 機制的計算複雜度呈 O(T^2) 增長，而推論時的記憶體搬運量呈 O(T) 線性增長。在 HBM 頻寬成長遠落後於 GPU 算力的現狀下，這種依賴儲存大量未經壓縮原始狀態的架構，註定會從 Compute-Bound 跌落至 IO-Bound 的深淵。 Nested Learning 的出現，透過對記憶與推理本質的重新理解，為此困境帶來了典範轉移級別的解答。其核心突破在於「推論即訓練」的數學創新——Nested Learning 揭示了 Attention 機制在本質上等價於單步的梯度下降更新。基於此，HOPE 架構不再被動地檢索歷史，而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題，轉化為僅需固定算力的狀態更新問題，從根本上粉碎了記憶體牆。在應用層面，這種架構徹底重塑了 AI 的個性化能力。HOPE 的動態記憶機制（Fast Weights）不再依賴傳統模型那種外掛式的提示詞（Prompting）來「模擬」短期記憶，而是透過梯度更新，將使用者的偏好與習慣即時「內化」為模型參數的一部分。這不僅在工程上根除了重複處理提示詞的算力浪費，更在體驗上創造出具備「演化能力」的專屬模型，讓 AI 隨著每一次互動變得更懂你。這一變革預示著當前 HBM 需求高速增長的趨勢將顯著放緩，技術改革的方向將轉向針對不同更新層級的硬體特化：邊緣裝置 (Edge)：承載高頻更新的快層，將不再單純追求頻寬，而是轉向追求大容量 SRAM 與極致的能效比，以支撐毫秒級的狀態寫入與計算。雲端中心 (Cloud)：承載低頻更新的慢層，為了處理更複雜的邏輯推理與龐大的智能結構，將演化出針對非歐幾何的特化運算單元，以在雙曲空間中實現更高維度的高效推理。 ----------這是AI潤稿的分隔線----------- 你各位要小心HBM市場在2026年末的崩潰反轉短期因為各種高頻信號，還是會持續推高HBM的市場價格然後記憶體因為這些需求訊號，會瘋狂擴廠等到「基於超大KV Cache的Transfomer架構」路徑依賴崩潰新架構全面轉向HOPE的時侯嘻嘻刺激囉~~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.205.172 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765566374.A.FED.html

推 ksjr : 因為這新架構 google是不是又要重新設計TPU拉? 12/13 03:10

遙遙領先，狗家的硬體和計算架構和前沿論文研究，具有高度的一致性互相加成，互相協同，full-stack優化等到其他大廠醒悟過來，發現Nested learning才是正確方向決定要放棄Transfomer時，狗家已經領先一年到一年半了不信你丟給ai問，可以多問幾間互相比對當然，要用正確的方式問才會得到正確的答案你要先有足夠的背景知識才能識破關鍵點，問出最重要的問題問問題的能力，大概就是新時代最重要的能力了XD ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:16:47

噓 iecju520 : 我看你根本不懂AI吧... 12/13 03:22

推 rayray0410 : 看到這ID就先推 12/13 03:24

推 L1ON : 我在看openai倒數計時 12/13 03:27

推 ccneptunecc : 放棄transformer架構是否意味著需要更多GPU? 12/13 03:41

如果是以「當前同等能力模型」作為基準答案是不會因為Transformer+KV Cache是一種很低效的推論模型低密度的無壓縮資訊儲存+重覆計算AttentionMap 導致超大量的能源浪費(算力和資料搬運成本兩者都是) Nested Learning使用正確的層級特化結構的話在推論期可以省下五到十倍的能源消耗不過，架構優化和模型能力提升是兩步走的在架構優化釋放出來的算力，最終會導致模型繼續依照Scaling Law擴大所以結果是「省了十倍的能耗，那模型就能再大十倍」(這不是正確的數學，只是比喻) 算力需求永遠存在，因為文明的本質就是計算 ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:55:45

推 kuku951 : 需要更多GPU就需要更多記憶體… 12/13 03:55

需要從更細致的視角去切入 SRAM也是記憶元件 HBM也是 Host DRAM(LPDDR)也是計算也一樣 tensor core是計算元件 systolic array也是計算元件近存運算也是計算元件所以「在哪裡計算，在哪裡儲存，如何搬運資料」從來就不是一個單一命題一切都要從架構與系統級的視角下去拆解，才會根據需求得出一個答案這也是為什麼邊緣層和雲端層會發展出不同的計算架構因為需求不同 ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:59:39

推 ng101281 : 一根戳破泡沫的針來了 12/13 04:03

推 kuku951 : 感謝分享，這東西真的挺牛的，說不定這會是未來AGI 12/13 04:08

→ kuku951 : 的先驅，順便回覆樓上，如果這東西是真的搞得出來， 12/13 04:08

→ kuku951 : 那就是戳破那些說AI泡沫的人 12/13 04:08

推 roseritter : 硬體現實有餘裕的話，原本現在吹的天文級算力需求很 12/13 04:59

→ roseritter : 難蓋出來 12/13 04:59

→ roseritter : 改新玩法就能現實點 12/13 04:59

研究(Model Refinement)時代和擴增(Scaling)時代是輪流出現的 Ilya Sutskever最近有一篇訪談可以看看正如他所說，接下來時代巨輪要轉回模型改進了不過，等到模型改進得差不多，又會重啟擴增時代這兩個時代的過度也是漸變的，不是一刀切「文明的本質就是計算」你如果看不懂這一大堆Big Tech誰會贏，那也沒差買2330 永遠是對的

推 tigerzz3 : 好久沒看到mina大預計何時開撿？還是保守看？ 12/13 05:07

感謝GOOG爆噴一波，現在YTD 90%了(真是出乎我意料..11月初時我本來已經躺平了) https://i.imgur.com/NHJP572.png 不過我在11月底賣掉一部份GOOG撿了NVDA，作整體部位Rebalance 然後今天就吃了一根超~~~級大的，腳麻了，哭啊

推 shead1983 : 這篇好驚人，感謝高高手分享內容，讀完後的感想是 12/13 05:08

→ shead1983 : 美光全力衝刺HBM，是不是慘惹？ 12/13 05:08

嘻嘻其實這篇只是我得到的洞察的一小角而已真正重要的我沒說，不過這篇其實有很多引子比方說在模型最深層(最慢層)，需要非歐幾何的雙曲空間語義空間 (提示: Transfomer的語義空間是平面的) 這在Nested Learning論文裡是完全沒提的，是另幾篇資訊幾何學的研究

推 aegis43210 : 現在的確是有AI泡沫，但目前要看是啤酒先裝滿或是泡 12/13 05:10

→ aegis43210 : 沫先消掉 12/13 05:10

→ aegis43210 : 不過邊緣運算中，未來NAND看起來會是最缺的 12/13 05:13

考慮一個五層結構，最淺兩層(L1~L2)在邊緣，三層(L3~L5)在雲端你猜猜看L1需要多少參數量? 答案可能出乎你意料的小完全不需要放在NAND 而且從最快層的「權重即時更新」需求來看，也不能可能放在NAND

推 tigerzz3 : 今天這種盤狗家不到1%真的太扯 12/13 05:14

推 kuku951 : 衝刺HBM怎麼會慘… 這個做法還真有可能解決HBM的困 12/13 05:15

→ kuku951 : 境然後HBM的優勢在於頻寬跟速度一定是未來最需要 12/13 05:15

→ kuku951 : 的 12/13 05:15

HBM的頻寬和速度很重要這敘述沒問題不過HBM的總需求是容量(Capcity)決定的猜猜看如果把最深層的語義空間從平面換成雙曲，參數量會變成多少? 有論文可以查的，查查看 ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 05:44:36

推 flyawayla : 花一整個早上快速掃完，看起來運算沒減少反而更多， 12/13 05:53

→ flyawayla : 不同頻率互相獨立，不獨立我猜就要用記憶體存參數， 12/13 05:53

→ flyawayla : 也沒有看到討論訓練速度，通常沒有就表示一定更花時 12/13 05:53

→ flyawayla : 間，心得是中立，畢竟都發一個月了，可以再等等看其 12/13 05:53

→ flyawayla : 他團隊有沒有跟上 12/13 05:53

我覺得你關注錯重點，HOPE架構的工程實作不是論文中最重要的部份數學表達才是，這篇論文就算把HOPE架構整個去掉純理論的部份就有相當於熱力學定律的價值這代表一種更接近「知識、記憶、推理」的物理本質的理論從而讓各大模型研究商能在巢狀學習的理論範式下，自由去探索各自的工程實現類比於你有了熱力學定律之後，各種形式的熱機都有理論依據了你看我前面對於未來模型的敘述(雲邊協同、不同語義空間的五層結構) 這和論文中簡化過的HOPE模型壓根就不是一回事對吧因為HOPE模型的設計只是要作為論文的實證用途而不是真正具備下一代模型的「工程可行性」&「商業可行性」的實作至於下一代實作「可能會長什麼樣子」那自然是不會在這裡解釋了... 反正即使我提了 99.99%的股板眾也是鴨子聽雷啊

推 waitrop : 當你看到論文的時候，早就有特定的TPU xpu 了 12/13 06:03

狗家員工內線消息我要是真信了你就是在內線交易囉!!! 就事論事 TPUv7沒有明顯針對Nested learning的痛點去優化 (當然也沒有明顯不能跑的理由，依然可以跑) 至於v8之後怎麼設計，現在也沒有公開消息比起雲端，我覺得現在是邊緣的計算架構沒跟上Nested Learning的需求

推 Morphee : 先問一個問題 2017年 attention 出來之後 12/13 06:07

→ Morphee : 你是否從技術押注中賺超過幾個億? 如果沒有 12/13 06:08

有嘻嘻你再回去翻翻我2019年談AI革命的文章當時也是一樣，完全沒有人看懂我說什麼

→ Morphee : 那 Nested Learning 也只是一個數據很普的實驗 12/13 06:09

※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 06:11:00

→ newwu : 想想這運用到大規模，多客戶的時候，這真的會讓記 12/13 06:21

→ newwu : 憶體減少嗎 12/13 06:21

→ newwu : *會讓記憶體使用量減少嗎？ 12/13 06:21

推 waitrop : 邊緣計算也會跟上nested learning ，也有相對應的T 12/13 06:26

→ waitrop : PU xpu 12/13 06:26

推 waitrop : 會讓記憶體用量增加，但是不是hbm ，不能再多說了 12/13 06:28

如果根據手機上最快層的即時更新需求去推導很明顯是要SRAM，而且不能和L1 Cache共用既然要能放進整個最快層的權重，即使以INT4/INT8高度壓縮，也需要很大一塊SRAM 考慮到除了慢權重(預訓練參數)之外還要放快權重(記憶狀態) 加一加要個2~4MB的獨立SRAM是跑不掉的

推 fisher6879 : 呱呱呱，數學不會背叛我，不會就是不會，不過AI推論 12/13 06:29

→ fisher6879 : 的HBM需求下滑結論還是看得懂的，感謝mina大分享， 12/13 06:29

→ fisher6879 : 天網是不是又加速啦？啾命Rrrr 12/13 06:29

真der 天網近了悔改吧

推 googstar : 非goog的asic又要準備被輝達gpu揍爛了改架構最能 12/13 06:31

→ googstar : 適應的就輝達 12/13 06:32

推 losage : 你應該要請open潤稿，g家唯一缺點就是不會說人話 12/13 06:33

我故意的實際上Gemini Canvas寫小作文可以調長度調越長它會試著擴寫解釋的更清楚但是我偏不嘻嘻說真的，看不懂的人，就把我整篇文字+NL的論文都餵給AI 然後再問AI就好啦，時代都是這樣了，要善用AI啊

推 steven853 : 所以結論是allin asic? 12/13 06:34

推 waitrop : 沒錯，gb300的Rubin 三小的就是為了解決memory wal 12/13 06:34

→ waitrop : l ，這問題業界都知道，但是願意改架構改算法的公 12/13 06:34

→ waitrop : 司，也就只有谷歌跟輝達 12/13 06:34

推 Ipluck : 回過頭看M大2019第一篇文真的是含金量十足當時 12/13 06:36

→ Ipluck : 就看的這麼徹底真的厲害 12/13 06:36

一般來說我是看未來3~5年的，再遠的我也看不到了所以2019那篇講的是2019~2024的AI革命這篇講的是2025~2030「通往AGI之路」

推 bunjie : 先推在看 12/13 06:37

推 audic : 核心權重會隨互動漂移＝不可重現、不可審計、極易被 12/13 06:38

→ audic : 誤導，現實系統根本不敢上線，頂多停在論文 12/13 06:38

回到上述的五層系統你完全可以把最深層的(物理定律、道德價值、信念)基底層靜態權重完全鎖定不更新，來防止惡意注入論文提示的是一種數學架構，你理解了整個數學架構的話實務上你完全有各種工程實作的細節去彌合你的需求當然我完全同意這種動態學習的系統，在正式上線前一定要經過嚴格的對齊測試不過這不會構成「永遠不會有能夠動態學習的系統」的理由

推 tsubasawolfy: 這名字取得好…看到就大概知道他要幹嘛 12/13 06:42

推 ksjr : 有拉今天下午當薪水小偷時有問copilot 不過這個也發 12/13 06:44

推 elliotpepe : 先推一個，未來再回顧 12/13 06:44

→ ksjr : nested learning十一月初就發了好像股價已反應? 12/13 06:45

推 Morphee : 雲端跟edge會重分配吧為啥會亂飄 12/13 06:47

看你每一層的更新頻率怎麼設定再以五層模型舉例的話雲端的L3可能是event-driven更新、L4可能是每天更新一次 L5就如上述所說，最好是不要亂更新

推 googstar : 真的通往agi只會讓整個ai產業算力需求持續飆升? 12/13 06:53

→ googstar : 看來輝達真的太便宜 12/13 06:54

買2330 永遠正確鐵打的Foundry，流水的Design House

推 guanting886 : 感謝分享 12/13 06:57

推 afflic : 2330有機會變成全球市值前三嗎 12/13 06:58

推 Morphee : AMD效率轉折受益者/Apple邊緣語義既得利益者 12/13 06:58

爽到Apple 躺平到最後天上掉餡餅賽道重置抱緊GOOG大腿就贏那些花了幾百億美金看別人車尾燈的

推 breathair : 我只後悔都看對了，轉倉太慢還一堆QQQ，XD不過至少 12/13 06:59

→ breathair : 早一步清掉TSM跟NVDA 12/13 06:59

推 tomtowin : 重點是SRAM，就是買2330，感謝分享 12/13 07:00

推 deltawai : 感謝 12/13 07:01

推 chives465 : 推M大，請問除了TSM，AVGO會建議買入嗎？ 12/13 07:04

推 Morphee : 想了一下 Hyperbolic若起來 NV還是比AMD有利 12/13 07:04

推 qwe78971 : 股票不講這個所以短期內沒用到時候早就換股了 12/13 07:06

→ Morphee : 看軟體是否續補topology-aware跟memory-flow API 12/13 07:08

不過，最深層語義改用雙曲，這可能是這篇文章裡最弱的推定因為用現有的硬體算雙曲空間，那個運算量之驚人光一個龐加萊距離就比歐幾里德距離高不止十倍運算量了所以在專算雙曲的特化硬體內建之前很有可能就是平面或球面加減用了「切換深層語義空間」本質上就是「計算量 vs 記憶體容量/頻寬」的交換與權衡雖然最終一定是會切到雙曲，但是這個改變要幾年發生，很難預估快的話可能三五年，慢的話可能十年

推 billionerx10: 看來自研asic可能會是一條非常不明智的路架構一改 12/13 07:16

→ billionerx10: 整個無用 12/13 07:16

推 hduek153 : 分享推 12/13 07:18

推 kottas : 好文 12/13 07:19

推 jay412210 : 我2330是最大贏家 12/13 07:24

推 abyssa1 : 要放SRAM 那就回到CCW 說的產能遠遠不夠 12/13 07:28

邊緣需要大SRAM，雲端不需要至於邊緣什麼時侯真正爆發那當然是要等Nested Learning的動態學習模型成為主流才行畢竟單層的Transfomer是不可能在邊緣裝置跑的當然，如果說Nested Learning的最快層實際上跑Transformer，那是有可能的不過在這種情況下，L1層跑Transfomer+滑動窗口KV Cache(模擬工作記憶) 比起直插一個固定大小的RNN作為工作記憶，並沒有特別的優勢總之，要看到邊緣裝置爆發大概會是2027~28之後的增長點了

推 GinginDenSha: 推，呆灣房子買起來，呆民財富持續噴射 12/13 07:30

推 littlelaba : 一句話做多還做空啦 12/13 07:32

推 whyhsu : 好 12/13 07:35

推 suzuke : Nested Learning 推論即訓練聽起來很美好，但是你 12/13 07:39

→ suzuke : 要知道現在的推論只要做「前向傳播 (Forward Pass) 12/13 07:39

→ suzuke : 」，運算量相對小。Nested Learning在推論時，內部 12/13 07:39

→ suzuke : 還要做反向傳播 (Backward Pass)或梯度更新，每生 12/13 07:39

→ suzuke : 成一個字，計算量可能變成原本的 2-3 倍。再來訓練 12/13 07:39

→ suzuke : 穩定性極差，也還不能平行化，這些問題沒解決前， 12/13 07:39

→ suzuke : 它想要成為LLM的聖杯取代Transformers 還太早 12/13 07:39

你這屬於論文沒看清楚，或是直接丟AI叫它生答案的結果再看清楚一點，HOPE架構的最快層有作反向傳播嗎?? 在一個參數量很小、只處理簡單語義連結的最快層，直接一個DGD作掉了要請AI讀論文，也要有足夠的背景知識，不然你根本不知道關鍵在哪 AI隨便說你隨便信

推 Morphee : 從Attention到ChatGPT也差不多五年合理的時間尺度 12/13 07:40

推 gcarrot : 我也是11月底清了GOOG, 買入NVDA, 現在有點痛.. 12/13 07:45

都是ORCL的錯救救NVDA 救救

推 Morphee : 樓上你講得也是我問的問題 2017年你看到Attention 12/13 07:45

→ Morphee : 樓樓上才對也可以說出類似的論點 Attention要成為 12/13 07:45

推 Morphee : AI聖杯還早 NLP還不成熟等等 12/13 07:48

任何洞見從技術前沿傳導到普羅大眾都要時間這我五年前講AI革命時就說過一次了問題是，當一個洞見變成新聞每天狂報的時侯，早就失去交易價值了

推 n555123 : 推 12/13 07:48

推 mamorui : 菇菇之前有提過，今年下半年正式進入聖杯終戰（我 12/13 07:51

→ mamorui : 個人預計三年時間），市場通常第二年上半場會開始 12/13 07:51

→ mamorui : 醞釀分勝負的前奏 12/13 07:51

推 aspirev3 : 邊緣裝置爆發還跟七巨頭有關嗎 12/13 07:51

推 jimjim951357: 感謝分享 12/13 07:52

推 ejnfu : 所以要買哪支？ Google NVDA都已有了 12/13 07:52

噓 kkes0001 : 搞笑，革命性論文要多少有多少，重點是實作，trans 12/13 07:52

→ kkes0001 : former 到llm 中間隔多久你知道嗎 12/13 07:52

→ kkes0001 : 在這邊留個言當紀錄，幾個月後再來看看肯定還是原 12/13 07:52

→ kkes0001 : 樣 12/13 07:52

原文就跟你說三到五年的大趨勢了(攤手) 至於知道這樣的技術趨勢要怎麼轉成短期的獲利嘻嘻不教你

推 overpolo : 真的感覺天網近了... 12/13 07:54

推 timtdsas : 真股板女神推推 12/13 07:55

推 Morphee : Attention/Transformer上位速度算非常快了 12/13 07:56

→ Morphee : 但是還是對投資技術的慧眼要求很高敢在2022年底前 12/13 07:58

→ Morphee : 重押的還是有一個很強的嗅覺 12/13 07:58

推 breathair : 聽起來，GOOG，AVGO，TSM，AAPL是不錯的組合？ 12/13 08:01

→ lokagh : 這種突破表示未來可降低ai電力需求? 12/13 08:01

解決模型架構的能源效率，只會導致更快的Scaling Law，更早的超人工智能時間表電力需求要下降，這是不可能的因為「文明的本質就是計算」這九個字其實是資訊密度最高的洞察，可以解壓縮成十萬字以上的文章只是你要會用正確的方式解壓縮 ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 08:05:36

推 Morphee : 現在比較煩惱是谷歌有Attn論文被OpenAI反超的經驗 12/13 08:04

→ Morphee : 上頭可能不準發有料的文章了 12/13 08:05

噓 kkes0001 : 那只能說你要嘛不是這個學術界的要嘛AI頂會論文看 12/13 08:08

→ kkes0001 : 少了，革命性論文說多不多，說少也不少，但真正能 12/13 08:08

→ kkes0001 : 走出實用這道坎的是少之又少 12/13 08:08

推 dodobaho : M大看壞記憶體？ 12/13 08:09

推 jacky5946 : 謝謝大神分享乾貨 12/13 08:09

推 darkangel119: 想到發明藍莓機的電影黑莓將資料壓縮讓通訊塔的 12/13 08:09

→ darkangel119: 乘載量暴增 12/13 08:09

推 joe2 : 論文啊….個人是不信 12/13 08:09

推 breathair : 聽起來懶人重壓TSM無敵XD 12/13 08:11

推 Morphee : 應該是說資本投入的方向性崁很多阿理論實驗工程 12/13 08:12

→ Morphee : 不是看幾篇論文衝過去單押方向感阿 12/13 08:13

推 loopdiuretic: 先推不然別人以為我看不懂 12/13 08:15

推 qscNERO : 推謝謝分享 12/13 08:19

推 pc007ya : 神感謝分享，NVDA盤兩個月還下跌哭了 2330 GUC放 12/13 08:21

→ pc007ya : 抽屜傳家了 12/13 08:21

推 beavertail97: 所以要出清NVDA的意思？ 12/13 08:22

推 AndyMAX : 出清蒜粒小隊 12/13 08:28

推 lovealgebra : 習近平要統治世界了 12/13 08:30

推 calqlus : mina桑都修過來了...大盤真的牙敗了... 12/13 08:32

推 believefate : 結論還可以炒股到2026 沒事 12/13 08:36

推 FireStarman : 作者都買NVDA了還有人說出清NVDA? 12/13 08:40

推 GX90160SS : 績效跟鬼一樣 12/13 08:41

推 mudmud : Entropy Control 12/13 08:41

推 dongdong0405: 這讓我想到早在RAG開始火了之後我就跟同事說RAG這東 12/13 08:42

→ dongdong0405: 西早晚會被取代 12/13 08:42

否，並沒有說Nested Learning就不用RAG 因為Nested Learning展示記憶機制是有損壓縮(遠久的越模糊) 所以必然要在某一層引入RAG的可能是L2層，可能是L3層，可能是L4層，在工程實作上彈性很大就像你要記筆記一樣要外部儲存一個記憶關連的錨點去重新強化連結

推 axr : 推看來無腦堆tsm安心睡了 12/13 08:48

→ bnn : 總覺得聽你的描述蛋白質剛進入第一層摺疊 12/13 08:48

推 bensonla : 推，買2330就對了 12/13 08:49

推 jen1121 : 2330 NVDA APPL,三檔續買 12/13 08:52

→ Risedo : 都顛覆性了 AGI還要2030嗎 12/13 08:55

→ MumiPyonPyon: 說要取代transformers的文章年年都有 12/13 08:58

推 Eide : 我大谷歌天下無敵 12/13 09:01

推 leotw : Tsm: 片上sram需求goog: 最高效模型+最低運算成本 12/13 09:03

推 allenmusic : 好專業文感謝 12/13 09:05

推 a39208491 : 推 12/13 09:10

推 barrytwu : 2330+NASDAQ無腦多！ 12/13 09:12

推 wangyl : 有料 12/13 09:13

推 Smile365Day : 應該是要出清做HBM的記憶體廠商 12/13 09:13

→ Lowpapa : 這篇論文跟我想的一樣 12/13 09:21

推 AJEN1202 : 感概自己書讀太少看不懂 12/13 09:21

推 Lasvegas : 推 12/13 09:23

推 g0t24568 : Mina大995 12/13 09:29

推 stonerr : 感謝分享 12/13 09:29

推 vvnews : 問AI AI卻回答HBM需求反而會暴增請問那裡有問題QQ 12/13 09:29

推 lasekoutkast: 重點是掌握權力的那些政治人物 12/13 09:31

→ lasekoutkast: 產業的發展跳脫不了人的管理 12/13 09:32

→ breathair : 你整篇喂進去，不要自己問比較準，AI有答案了 12/13 09:32

→ lasekoutkast: 那些掌握權力的政治人物決定AI發展的快慢 12/13 09:32

推 abyssa1 : 繼續卡dram bandwidth才會讓NVDA上不去 12/13 09:35

→ abyssa1 : 路線沒改的話到時候dram比顯卡還貴 12/13 09:35

推 lasekoutkast: 泡沫的產生歸根究底就是在理論尚未成熟前就一窩蜂 12/13 09:35

→ lasekoutkast: 的投入資金 12/13 09:35

推 abyssa1 : Mina為什麼你的ip 在日本出國玩還這麼認真研究喔 12/13 09:37

推 aixiiae2005 : M大可以直接講標的嗎= =不然2030你又要發文說2025發 12/13 09:38

→ aixiiae2005 : 的文沒人看得懂了... 12/13 09:38

→ aixiiae2005 : 這樣2030也可以回來稽查XD 12/13 09:39

→ ndk2675m : 新架構的產品，由誰生產@@？ 12/13 09:40

噓 bigwhiteeat : 哥不能說中文嗎…. 12/13 09:41

推 Humanbeings : 這篇含金量超高，已經顛覆對未來AI的想像，感謝分享 12/13 09:41

推 lajeremy : 感謝分享讚歎Ptt法人 12/13 09:42

推 lasekoutkast: 產業的發展還要考慮現金流 12/13 09:43

推 liliumeow : 聽起來更接近人類大腦但如果這個架構加上超大記憶 12/13 09:46

→ liliumeow : 體有什麼不好記憶好總是有地方可以派上用場搞不 12/13 09:46

→ liliumeow : 好是機器超越人類的地方 12/13 09:46

推 lusifa2007 : 好文推推 12/13 09:47

→ kao9458 : 這個team在ttt的前提下，水了好幾篇paper，寫的最 12/13 09:49

→ kao9458 : 好的是故事 12/13 09:49

推 qilar : 安啦 transformer 不會死的 12/13 09:52

推 yuantai : 燈別開那麼亮，很多人還有美夢不想醒 12/13 09:52

推 NekomataOkay: 感謝信心加持 12/13 09:52

推 sustto : 記憶體終究要回白菜價惹 PC又贏 12/13 09:55

推 asssstang : 看不懂，但有料給推 12/13 09:56

→ abyssa1 : 記憶體要回白菜價至少要到產能大量開出來還很久 12/13 09:56

→ eriker : 又不是O T 就比較好這種線性模型早就一堆 transfor 12/13 09:56

→ eriker : mer跟暴力解沒兩樣一定是最強的 12/13 09:56

→ kajika : HBM之後崩潰反轉也不會是這個原因啦 12/13 09:57

推 webberya : 我看懂關鍵字了，鐵打的2330買起來就對了 12/13 09:57

→ guanting886 : https://i.imgur.com/wocWLF9.jpg 12/13 09:57

推 mamorui : 公司財不揭露嘻嘻狗狗比這篇論文發表可能有新 12/13 09:58

→ mamorui : 的才會發表 12/13 09:58

→ guanting886 : https://i.imgur.com/6tMy3tE.jpg 12/13 09:58

→ guanting886 : https://i.imgur.com/C91UnKk.jpg 12/13 09:58

→ guanting886 : https://i.imgur.com/vLN708H.jpg 12/13 09:58

推 smallmin36 : 好專業！只能推了 12/13 09:58

推 assassinzero: 這篇重點：如果nested learning可行，記憶體的美夢 12/13 09:58

→ assassinzero: 就會破碎 12/13 09:58

→ guanting886 : https://i.imgur.com/oKQy1h8.jpg 12/13 09:58

→ eriker : 而且資訊越多變爛機率更高 gpt用起來就是這樣真正 12/13 09:58

→ guanting886 : https://i.imgur.com/PgyuWVA.jpg 12/13 09:58

→ eriker : 有用的通常就是最近的 12/13 09:58

→ ojh : 高手這下nv真的要崩爛只能抱孤狗了 12/13 09:58

→ guanting886 : https://i.imgur.com/33oxCY0.jpg 12/13 09:59

推 jerrychuang : google不是在2024年就提出Nested Learning的概念了. 12/13 09:59

→ jerrychuang : .其他家應該多少有研究了吧..雖然GOOG還是絕對領先 12/13 09:59

→ jerrychuang : 啦 12/13 09:59

→ guanting886 : https://i.mgur.com/2OyJ0Nb.jpg 12/13 09:59

→ guanting886 : https://i.imgur.com/2OyJ0Nb.jpg 12/13 09:59

推 mamorui : 公司財最後不再揭露時 AGI就準備完成 12/13 10:00

推 nidhogg : 先無腦台積電再看誰打贏？ 12/13 10:00

→ eriker : 長文的任務跟短文是明顯不同的如果trasmformer在記 12/13 10:00

→ eriker : 憶體可行下都還是最強 12/13 10:00

「推論即學習」你覺得無損儲存(KV Cache)比較強，實際上是「死記硬背，沒在學」壓縮資訊=從低維空間向高維歸納的過程=學習人的大腦可沒有無限KV 相對的，根據自由能原理相關研究你在腦中壓縮資訊時，會因為預測誤差改善而分泌多巴胺也就是說基於資訊壓縮而生的生理機制(=求知欲)是文明進化的關鍵因素

推 goodjop : 尊重專業推，但懂再多的人短線還是會看錯 12/13 10:05

→ goodjop : 何不長抱刪APP即可? 12/13 10:06

→ goodjop : 如果再2020年就有NVDA 已經是25倍的獲利 12/13 10:08

→ ojh : 科技變化很快孤狗推tpu出來長抱nv刪app的全死 12/13 10:09

→ goodjop : 真的嗎? 很多人都還是賺錢死在哪? 12/13 10:10

推 MinJun5566 : 我信mina大 12/13 10:10

→ goodjop : 你的言論讓人容易記住ID 而且越來越容易記住了 12/13 10:11

推 marke18 : 謝謝分享~~ 12/13 10:11

→ loveadu : NV65收，2奈米現在誰用？ 12/13 10:15

推 cosmite : 12/13 10:17

→ karcher : 搞AI快變搞哲學了，這有助於營收？ 12/13 10:18

推 brightest : 看起來nested 頻寬需求只會更大如果CIM起不來 HBM 12/13 10:18

→ brightest : 需求只會更大所以關鍵反而是CIM的創新而不是neste 12/13 10:18

→ brightest : d 12/13 10:18

→ faultless : 看起來谷歌玩的方式才是未來的主流 12/13 10:19

推 as6633208 : scaling law增速>>放緩>>找到更好的算法>>scaling l 12/13 10:19

→ as6633208 : aw增速 LOOP 12/13 10:19

→ as6633208 : 不需質疑scaling law，除非你相信人類科技停滯 12/13 10:20

推 plaay : 現在還沒有nested learning 劃時代發明的感覺 12/13 10:21

推 a1234567289 : Scaling law不是聖經捏 12/13 10:22

推 as6633208 : 質疑scaling law大概就是覺得人類科技現在就是頂了 12/13 10:24

→ as6633208 : ，不會再更好，破台了，你覺得可能嗎，宇宙那麼大尺 12/13 10:24

推 jerrychuang : 應該是HBM下降，但一般LPDDR上升.因為不需要一直搬 12/13 10:24

→ jerrychuang : ，而且餐數量下降 12/13 10:24

推 stanleyiane : 推～ 12/13 10:25

推 as6633208 : 宇宙那麼大尺度，你覺得人類文明就這樣見頂了，人生 12/13 10:25

→ as6633208 : 真無趣 12/13 10:25

推 guanting886 : 定期定額買進，做好隔代沖 12/13 10:27

推 jian0202 : 先推 12/13 10:28

推 a1234567289 : 你對scaling law的理解是整個文明算力需求會上升 12/13 10:29

→ a1234567289 : 但這玩意說的是隨著模型規模增長他就會表現得更 12/13 10:29

→ a1234567289 : 有智慧 12/13 10:29

推 bonjour87 : 你的最後假設是記憶體會因為需求擴廠.結論會崩盤? 12/13 10:30

→ bonjour87 : 但現在看到的是記憶體寧願裁掉消費性也不擴產. 12/13 10:30

一般來說記憶體會有長鞭效應不過你說的也沒錯，如果市場很快就納入長期信號不再瘋狂推高HBM價格，三大記憶體廠也沒有因瘋狂的短期價格訊號擴廠的話最終的曲線可能會更平淡一點泡沫有多大，破的時侯就有多刺激我文中說2026年末要小心的前提是明年上半HBM繼續以每季+20%~30%的價格增速瘋漲如果現在就是HBM價格高點，稀缺性炒作停止，那反而不會有後面刺激故事

→ a1234567289 : 文明能量算力需求或許會上升但這和模型說的scal 12/13 10:30

→ a1234567289 : ing law是兩件事 12/13 10:30

推 Comtw : 我看不懂是不是注定當韭菜了 12/13 10:31

→ a1234567289 : 另外地球尺度夠大了吧從第一個生命誕生到現在生 12/13 10:31

→ a1234567289 : 命體的智慧走的一直是更有效率而非更大 12/13 10:31

推 kei1823 : 美光究竟是不是先知 12/13 10:33

推 as6633208 : 單細胞生物也很有效率，始終了展不了科技，就是要堆 12/13 10:37

→ as6633208 : ，有效率只是堆更快，還是要堆 12/13 10:37

推 rayisgreat : mina大大回來了！先推先推！ 12/13 10:38

推 a1234567289 : 我只是認為架構永遠優先於規模 12/13 10:39

推 TIPPK : 99公公 12/13 10:40

推 kuosos520 : all in TSMC or GOOG NVDA TSMC AAPL? 12/13 10:40

推 jatj : 2樓噓的好懂發表一下低見如何 12/13 10:42

推 yuen1029 : 講到人家看不懂就贏了 12/13 10:50

→ tinybunny : 想買鴨但看到macd就先等惹 12/13 10:50

推 afacebook : 2年我看大家也是說transformer完蛋了是mamba得天下 12/13 10:51

→ afacebook : 可是現在主流還是都用Transformer 12/13 10:51

→ afacebook : 看起來真的很厲害不過在看看 12/13 10:52

Mamba只有一層更新頻率你套用在Nested learning的框架下去理解各種對Transfomer的改進會發現他們都共享同一套數學表達所以才說真正重要的不是HOPE架構，而是論文前半的那套數學

推 Noberman : 只有中國要擴廠你哪邊資訊看到其他要擴的？ 12/13 10:54

推 schula : 優文推推真有趣，言簡意賅，感謝信心加持 12/13 10:56

推 BBKOX : 買半導體ETF應該不會輸吧 12/13 10:57

噓 s942816 : 你不如說量子電腦統一世界 12/13 10:59

→ a9564208 : 最後針對邊緣裝置跟雲端的論述，是不是代表通訊又噴 12/13 11:00

推 afacebook : 我看起來他跟qkv結構沒甚麼關聯ㄟ他是一種新的梯度 12/13 11:00

→ afacebook : 度更新方式 12/13 11:01

→ afacebook : 論文確實很厲害不過跟記憶體好像沒啥關聯 12/13 11:01

推 FULLHD1080 : 記憶體那邊省下來的錢,會轉去計算晶片,這樣講大家 12/13 11:02

→ FULLHD1080 : 懂了嗎 12/13 11:02

推 woker : 不要吵買google就好 12/13 11:07

推 josephpu : 推 12/13 11:08

推 lovemost : 計概還老師了….努力回憶中 12/13 11:08

→ ookimoo : 軟體，硬體會發展，需求不會像你想的那樣提升，top 12/13 11:15

→ ookimoo : player手上的錢也是要從投資變回收，聽不懂也沒辦 12/13 11:15

→ ookimoo : 法 12/13 11:15

推 overpolo : 怎麼會沒關聯同等級算力用的記憶體變少所以資源 12/13 11:15

→ overpolo : 要先轉去撐高算力之後算力高了變成存儲能力遇瓶頸 12/13 11:16

→ overpolo : 就要再把資源拿去擴充記憶體這是個正向的景氣循環 12/13 11:16

推 joey2k14 : 所以買NVDA、TSM、GOOG、AVGO、AMD、APPL對吧 12/13 11:17

推 aegis43210 : 大規模路線肯定是會有用的 12/13 11:17

推 woker : 買半導體etf好了基金會自動幫我們研究 12/13 11:22

→ strlen : 要怎麼證明紀憶體不重要了？ 12/13 11:25

推 FULLHD1080 : 以fab而言,記憶體御三家營收會典範轉移到TSMC,然後 12/13 11:27

→ FULLHD1080 : 我的AGI一定要比你強,所以開始瘋狂捲算力 12/13 11:27

→ FULLHD1080 : 現在大家在捲小孩子的學歷,以後大家改捲誰家的機器 12/13 11:30

→ FULLHD1080 : 人比較聰明比較能打 12/13 11:30

推 flightmoon : 跟AI聊完，如果要在NL以及BCI上投資，AI建議TSM、 12/13 11:42

→ flightmoon : GOOG、ISRG 12/13 11:42

推 FULLHD1080 : https://i.imgur.com/jc7HXbf.jpeg 12/13 11:44

推 koushimei : 就是台積電繼續吃肉韓廠挫賽 12/13 11:47

推 f0915034335 : 看不懂但先推再說 12/13 11:49

推 JasonTatum11: 就是N變log N 這不是大一就學過的東西嗎 12/13 11:56

推 abyssa1 : 記憶體需求不會下降只是增速回到線性而已 12/13 11:58

對，因為要解的問題又從IO bound變回compute bound了

推 mamorui : 趨勢是AI用記憶體扶正除非谷歌成功顛覆硬體界「 12/13 12:03

→ mamorui : 算力愈高記憶體永遠不夠用」的基礎觀念 12/13 12:03

→ mamorui : 計概的東西是最難撼動的 12/13 12:04

是Compute intensity改變了

推 cloud1030 : 感謝大大的分享與我想的差不多 12/13 12:06

推 feeling5322 : 感謝大大無私分享 12/13 12:11

推 ynanlin : 從一個學習AI新架構的角度，我把minazukimaya大的 12/13 12:12

→ ynanlin : 意見和Google nested learning paper放到NotebookL 12/13 12:12

→ ynanlin : M上，先做了這份Deep Research報告，大家可以看一 12/13 12:12

→ ynanlin : 下 (http://bit.ly/497jV9T) 12/13 12:12

推 ab4daa : 快搞死記憶體吧想組電腦了 12/13 12:13

→ dream12305 : 小看華爾街財技 12/13 12:16

推 longlyeagle : 結果下一世代最後還是靠Google... 12/13 12:24

推 BBKOX : 還沒到最後的物理AI，一切都難說 12/13 12:25

→ BBKOX : 半導體ETF買起來 12/13 12:25

推 SuperBig78 : 所以nested learning架構的出現會加速AGI的出現嗎？ 12/13 12:28

真正的AI產業領導者 aka. Sir Demis Hassabis 他說我們離AGI還差一到兩次的關鍵技術突破 Nested Learning高機率是其中一個(用統一的數學語言重新描述知識與學習的本質) 剩下一個，我不知道等Google Researh研究出來我再跟你說

推 bonbon789852: 看不懂但是感謝分享大GG天下無敵 12/13 12:30

推 eatlion : 感謝大大無私分享 12/13 12:30

推 ctes940008 : 要爆了嗎？ 12/13 12:33

推 for767 : 有什麼好刺激的？記憶體已經好幾次這樣了 12/13 12:37

每一次記憶體週期都很刺激好嗎XD

推 jorden : 感謝分享終於懂目前AI模型語言一堆限制的邏輯了 12/13 12:37

推 bring777 : 領先技術的，現在誰新手機沒用AI ? 12/13 12:38

推 oops801011 : 推 12/13 12:43

推 SilverRH : GSIT先躺一票人進去了 12/13 12:47

推 pmes9866 : 老鐵牛逼我要好好複習我的數學了 12/13 12:49

推 loopdiuretic: 那台積要回房間喝酒了嗎奪門而出啥時回來？ 12/13 13:12

推 s81048112 : 看完推 12/13 13:14

推 CCPenis : 還真的是2330無腦多 12/13 13:19

推 BBKOX : 重壓TSMX，再加上七巨頭槓桿ETF，應該可以應對後面 12/13 13:22

→ BBKOX : AI的發展 12/13 13:22

推 junior020486: 甲骨文丸辣 12/13 13:22

→ BBKOX : 囊括代工、算力、模型、應用 12/13 13:23

※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 13:23:49

推 NoMomoNoLife: 賀出桶！還馬上熱心分享QQ 12/13 13:23

推 ynanlin : 關於接下來幾年學習推理運算所用的晶片，會朝更客 12/13 13:23

→ ynanlin : 製化，記憶體需求與架構也將改變，由於NL是Google 12/13 13:23

→ ynanlin : 開發也正積極落實應用，可想見內部有更多相應硬體 12/13 13:23

→ ynanlin : 架構的研發，也有相對領先的優勢。粗淺的Deep Rese 12/13 13:23

→ ynanlin : arch報告第二則分享給大家看看(https://bit.ly/4rV 12/13 13:23

→ ynanlin : v1X3) 12/13 13:23

推 walkingtall : m大厲害！希望後續持續幫忙暗示（或明示XD）救一下 12/13 13:25

→ walkingtall : 我們這些小菜雞XD 12/13 13:25

推 nikoyaka9527: 推mina大，謝謝分享資訊 12/13 13:34

推 rayisgreat : 前幾天才看到TSMC釋出的N7到未來A14的效能演進，再 12/13 13:37

→ rayisgreat : 加上架構模型持續架化，兩者相輔相成實在很難想像未 12/13 13:37

→ rayisgreat : 來的AI世界會有多可怕@@ 12/13 13:37

→ rayisgreat : *持續進化 12/13 13:37

→ alanjiang : 這是可以免費看的嗎www 12/13 13:38

→ rayisgreat : https://reurl.cc/eVM4xW 12/13 13:39

推 rayisgreat : 再次感謝mina大大分享 12/13 13:41

推 bob1012 : 感謝分享 12/13 13:48

推 ACDC69 : 看不懂，先推 12/13 13:49

推 OuO333333 : 看起來像Transformer+RL? 12/13 13:58

推 mamorui : mina大一定知道數學猜想也在靠AI解決中，菇菇我等 12/13 14:01

→ mamorui : 躺在科學家塵封盒子的做不下去的論文登場，AI的第 12/13 14:01

→ mamorui : 三篇章聖杯是黑科技。 12/13 14:01

不止是數學，包含社會科學和經濟學，這種傳統上歸到文組的領域實際上也是需要AI研究的因為數學語言是有普世擴展性的所以從Nested Learning的起點出發，再多幾步推導就能得出「文明的本質就是計算」延伸出L6與L7的計算層，發展出一套用來描述文明、制度的數學語言 https://reurl.cc/6bK3Q5 我提供一個引子給對這方面研究有興趣的人去讀老樣子，如果讀不懂，就丟去問AI吧 ※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:15:06

推 TaiwanUp : NL=控制理論 Transformer=引擎 HOPE=會變形的引擎 12/13 14:11

→ TaiwanUp : 會變形的引擎在飛機來說很恐怖但模型訓練不一定 12/13 14:12

→ TaiwanUp : 熱力學定律還是至高無上很難有什麼技術可比喻為之 12/13 14:14

→ TaiwanUp : 熱力學定律是不可被比喻的 12/13 14:15

你小看了Nested learning這篇論文的背後擴展潛力它不單單只是一篇關於AI的論文，它「正好是熱力學定律的反面理論」熱力學是關於「宇宙的熵增」 Nested learning是關於「文明的熵減」剛好是對偶關係

→ TaiwanUp : 剛睡醒就看了好人名單文刷了兩小時的手機 12/13 14:16

→ h22349 : 別想太多一篇優化效率現在ai就像是國土擴張，遲 12/13 14:22

→ h22349 : 早會有新算法，需要這些資源 12/13 14:22

※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 14:24:18

推 FULLHD1080 : AI的飛輪效應要來了,算法-硬體相互改善,直到物理 12/13 14:25

→ FULLHD1080 : 化學的窮盡 12/13 14:25

推 linweida : 睡醒看到Mina大的文必推! (mina怎麼好像不用睡覺) 12/13 14:30

推 ykjiang : SRAM太貴太佔die size且面向用戶，不用太低延遲 12/13 14:38

→ ykjiang : DRAM應該更適合 12/13 14:38

→ TaiwanUp : 文明熵減是局部熵減很難跟全域對偶但是人致富關鍵 12/13 14:57

推 hotbeat : CUDA 才是那個聖杯，ASIC只能做edge的 12/13 14:59

噓 MoonCode : 想太多了 12/13 15:01

推 hotbeat : 怎麼看google還是最大贏家，跟台廠有結盟的基本上 12/13 15:08

→ hotbeat : 都不用擔憂太多 12/13 15:08

推 breathair : 再推一次！看完覺得自己對AI的發展拔高了不只一層！ 12/13 15:15

推 TaiwanUp : 宇宙和文明還是有對偶但沒有野蠻和文明那麼明顯 12/13 15:23

推 afacebook : 當初大家覺得Mamba能取代transformer 是MoE+mamba或 12/13 15:32

→ afacebook : 其他的架構當然不可能只有一層ssm的架構啊 12/13 15:33

→ afacebook : 這東西感覺是一種特別的fine turing 12/13 15:34

→ afacebook : 能不能成功要再多做一點實驗 12/13 15:34

→ afacebook : 現在主要還是覺得大模型比較強 12/13 15:36

→ afacebook : 這是想要做些中模型就能有很好的適應能力吧 12/13 15:36

→ afacebook : 很特別請google再多做一點實驗 12/13 15:37

→ afacebook : CMS這種更新方式其實跟一般先凍結一些層然後慢慢 12/13 15:39

→ afacebook : 打開不是很像嗎? 12/13 15:40

→ afacebook : 然道主要是那optimizer有貢獻嗎 12/13 15:41

→ afacebook : 好像也沒這麼簡單要再研究一下 12/13 15:43

→ TaiwanUp : NL像是聯合國憲章 HOPE是機構+流程 Transformer美國 12/13 15:52

→ TaiwanUp : Mamba就是另一國但看起來沒有成氣候 12/13 16:01

推 misthide : 總歸一句 2330是最大贏家任何新技術都繞不開它 12/13 16:02

推 BBKOX : 以為買了AI Pro就能一直使用Gemini思考型，結果還 12/13 16:10

→ BBKOX : 是有次數限制… 12/13 16:10

推 afacebook : Mamba有沒有成氣候還不知道吧.... 12/13 16:24

→ afacebook : 每次新架構出來基本都會吹一下要經過檢驗 12/13 16:26

推 afacebook : 說實在我個人是覺得沒有到當初看Transformer那種 12/13 16:28

→ afacebook : 神奇感就是等看接下來發展 12/13 16:29

→ PTTMAXQQ : 感恩啊謝謝分享專業知識對我幫助蠻大的 12/13 16:40

推 sss966146 : 想問2019是哪一篇 12/13 16:50

推 h129875230 : 要五層參數不就要一大坨人幫忙 fine tune嗎這個 12/13 16:51

→ h129875230 : 五年內就出來是不是有點樂觀 12/13 16:51

五層不是五個模型好嗎，它是同一個模型的巢狀表達在快層傳到慢層時，傳遞的是「語義向量」這就表示L2傳給L3的語義向量要是同義的也就是說，整個模型是要五層一起聯合訓練的預訓練時不可能分散佈署是訓練完才把L1/L2的初始靜態參數(慢權重)佈署到邊緣端

推 jonaswang01 : 我g天下無敵還有人有疑問？ 12/13 17:12

推 suPerFlyK : 只能推了 12/13 17:17

推 akanokuruma : 意思是記憶卡現在風聲水起隨著技術更新擴廠=負債 12/13 17:29

→ akanokuruma : 虧損暴死 12/13 17:30

推 Bellucci : 看不懂所以問AI, 它建議是Goog/AAPL/AVGO/QCOM/ARM/ 12/13 17:35

→ Bellucci : TSMC/聯發科 , Nvidia有其護城河且他具備訓練功能不 12/13 17:35

→ Bellucci : 至於死掉但要分散風險不重倉。 12/13 17:35

推 Bellucci : TSM是絕對防禦 12/13 17:38

推 darkangel119: AI回答我是SRAM IP 跟 ASIC 事核心受益者咦？ 12/13 17:40

推 Bellucci : https://i.imgur.com/vcaDUXg.jpeg 12/13 17:49

→ Bellucci : https://i.imgur.com/1tqlePE.jpeg 12/13 17:50

→ Bellucci : https://i.imgur.com/bMImfC4.jpeg 12/13 17:51

→ Bellucci : https://i.imgur.com/l4R5a7F.jpeg 12/13 17:51

→ Bellucci : 我菜雞還是QQQ和mega 7就好，神仙打架我沒資格參加 12/13 17:52

推 joewang85 : 推 12/13 17:58

※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 18:07:13

推 as6633208 : 行業護城河問gpt你會很慘喔，每間護城河都是在增加 12/13 18:06

→ as6633208 : 的要看的是未來布局 12/13 18:06

推 mudmud : Active Entropy Control Model 12/13 18:28

推 Bellucci : 我沒問行業護城河欸我直接給論文它自己寫的 12/13 18:28

→ Bellucci : 重點不在第四張在前三張 12/13 18:29

→ Bellucci : 反正AI沒回要買Nividia 是建議前三張的標的 12/13 18:30

推 lee198218 : 謝謝提供非常好的素材 12/13 19:00

推 breathair : 此篇重點在未來AI世界的描繪，虛擬與現實的雙耦，虛 12/13 19:06

→ breathair : 擬的入口（GOOG，APPL)，物理的極限(TSM，CEG) 12/13 19:06

→ lavign : 通用型怎麼什麼都不精怎麼和ASIC比 12/13 21:03

推 PTTMAXQQ : 你各位還是想想最終消費者會選擇從哪個入口去付費A 12/13 21:16

→ PTTMAXQQ : I 12/13 21:16

推 sustainer123: 這篇不是github還沒開源嗎? 12/13 21:28

推 avans : 不懂Nested Learning如何降低vram用量，不過先推了! 12/13 22:49

→ njjroom : 謝謝mina大的分享引起很多大大的討論，跪學中…… 12/13 23:16

推 ksjr : asic每次換算法都要重新設計來取得最佳效能啊 12/13 23:39

※ avans:轉錄至看板 AI_Art 12/14 00:12

推 ykjiang : 這用TPU跑一定悲劇，GPU勉強可以，ASIC有得等 12/14 02:00

→ ykjiang : 不過NL不會太快取代現有的LLM，即使硬體充分支援 12/14 02:01

→ ykjiang : 每個人都雲端學習自己的AI model，學出來還都不同 12/14 02:02

→ ykjiang : 太不可控了 12/14 02:02

→ ykjiang : 可以考慮邊緣端的應用，不過風險還是很高，容易被告 12/14 02:03

→ JKjohnwick : 太唬爛,這要甚麼時候商轉,甚麼時候價格降下來 12/14 13:43

→ JKjohnwick : 如果可行的話,採購第一個轉過來買這個 12/14 13:44

推 mtm : 這是股版目前最有料的一篇 12/14 14:59

推 mtm : 9月的時候要減碼TSM，現在要趕快補回來了嗎 12/14 16:20

推 eknbz : 回來mark一下這篇paper可能對我工作有幫助 12/15 03:22

推 verydolungbe: 我看到了 BETA 與 VHS 之爭。還有人聽得懂我我嗎？ 12/15 07:23

推 verydolungbe: http://i.imgur.com/Fy9qodr.jpg 12/15 07:41

噓 patvessel : 範式變更越大tpu入土越快 12/15 09:09

→ patvessel : 還在內插就不要講什麼熱力學都定律了 12/15 09:09

→ patvessel : 聽這個跟聽推背圖差不多 12/15 09:09

推 nelso : M大就給推～雖然還是不太容易理解 12/15 14:39

💰 股票 Stock 版：熱門文章

💰 股票 Stock 版：更多文章

Re: [新聞] 甲骨文股價暴跌超10%！訂單積壓越來越多 「燒錢」砸AI

💰 股票 Stock 版：熱門文章

💰 股票 Stock 版：更多文章

Re: [新聞] 甲骨文股價暴跌超10%！訂單積壓越來越多「燒錢」砸AI