Re: [請益] 為何記憶體可以隨便調漲毛利率那麼高

作者waitrop (嘴砲無雙)

看板Stock

標題Re: [請益] 為何記憶體可以隨便調漲毛利率那麼高

時間Fri Jun 26 15:14:44 2026

先說我個人看法: CXL DRAM, 不是HBM, 股票的話就是MRVL, 但是我沒有買MRVL, 不要找我負責 ※ 引述《maplefff (降息の恐怖嘎鱷)》之銘言： : ※ 引述《Pixma258 (鄉民們!別爭了!!)》之銘言： : : 乳題，為何記憶體可以瘋漲價成這樣 : : 川狗一句話都不敢出來叫 : : 但晶圓不行，漲價要漲的小心奕奕 : : 川狗不時出來叫 : : 如要論記憶體和晶圓，晶圓製造技術門檻更高 : : 而且對AI基建晶圓重要性也絕對不會輸記憶體 : : 有沒有記憶體可以隨便喊漲那麼高的毛利率 : : 晶圓不行 : : 股價更是晶圓瘋漲成這樣，晶圓卻被倒貨 : : 實在看不懂，想請教一下大家 : 「HBM容量每GPU大概每年增長40%以上以電腦架構來看, HBM 不會一直這樣快速增長上去, HBM的速度非常快, 價格/成本極貴, 就像是快取一樣的地位, 不應該一整塊全部都是HBM, 傳統電腦架構的設計是每一層的存取大小比例是10-1000倍的差距, 比方說16kb register, 16mb cache, 16gb ram, 16tb ssd/hdd, 當然, 每一層的速度也是差了1000倍以上所以HBM 跟傳統DRAM的比例應該是10-1000倍的大小比例, 但是這幾年的AI競爭被某一兩家不用公布財報的公司給搞爛, 因為不用公布財報, 錢也都是借來或是投資人給的, 所以他們是用最暴力最奢侈的方式在搞AI競爭, 從前的多層次存取架構, 被搞成暴力法的100% HBM, 他們不需要在乎成本價格, 只要他的速度比你快一倍, 你在AI 競爭上面就完全出局過去幾年就是在這樣的變態競爭下, 把Nvidia GPU 跟 HBM吵到非常不合理的程度, 有人不想跟著這樣玩, 就會被華爾街跟主流媒體罵說沒有AI競爭力, 不信, 你去看看2015-2025這十年, 某公司的自研AI晶片每年都被華爾街教訓要求關掉部門改用NVDA GPU, 這部分就不多說了回到主題, 但是這種"Game of Chicken" = 「膽小鬼博弈」, 總有玩不下去, 有人退場的時候, 首先是GPU, 開始有人受不了輝達稅 Nvidia tax, 開始有人自己研發AI 晶片, 接下來就是 HBM 稅, 同樣的道理, 之前不論是AI模型公司或是CSP, 扣完輝達稅都是賠錢在給客戶使用, 現在 HBM 漲價漲成這樣, 扣完HBM的成本, CSP也幾乎是賠錢在給客戶使用, 當然信仰夠的蘋果跟輝達可以加價賣, 但是大部分的公司是沒有信仰可以加價賣的這時候只能走回傳統的電腦架構設計, HBM 跟 DRAM 比例要回到 1:1000 以上的比例, 犧牲一些記憶體效能至於有沒有TSM 台積電稅, 有的, 已經十幾年了, 但是台積電收費比較合理, 唯一的缺點是你必須排隊幾年, 所以大家也就都給台積電代工, 說要給別家公司代工都只是說說而已, 因為價格跟成本沒有比較省, 反而更貴 : 這條需求曲線的陡峭程度，是DRAM供給端 14% 的晶圓產能增長， : 乘以 9% 的密度提升，很難追上的 : 在硬體領域，因為解碼階段KV快取的極高頻寬 : 和極高記憶體容量的要求，也導致了HBM獨特的地位。即便是HBM漲價三五倍， : 把錢花在HBM上帶來的邊際token產出提升，仍然比花在其他地方要划算的多。 : 其他幾個記憶體路線，SRAM，HBF，CXL，PIM， : 目前都無法在HBM的主力賽道KV快取/解碼階段上正面競爭， : 起碼未來5年甚至更長時間，不太可能找到替代路線」 : https://x.com/fi56622380/status/2070029693810847988?s=20 : //////////// : 只要LLM還是當前自回歸生成(AR, Autoregressive Generation)工程範式, : 每生成1個token都需要搬運KV快取計算上文每一個token和下文的注意力(Attention) : 那記憶體問題就是供給側無解的問題, 因為LLM對記憶體頻寬擴展的需求會是 : token生成長度二次方增長. : 將token生成長度1M token -> 10M token, 記憶體頻寬需要擴展100倍 : 這遠遠高於現實世界工廠建設和製程優化的速度. : 要解決該問題, 唯一的方法是從算法根本上去解決. : 我很久之前就認為文本Diffusion模型很可能是下一代新工程範式 : 從流形假設的觀點看Diffusion的生成更穩定, 從工程實踐去看其生成更有效率 : 文本Diffusion模型可以一次性讀取KV快取就透過GPU迭代生成大量token : 目前工程實踐可以做到一次生成256 token以上, 這表示KV快取搬運減少256倍 : 而未來顯然會更長. 這會把當前的記憶體受限問題重新拉回到GPU, 算力受限問題上 : 關鍵的轉折點會落在什麼時候上下文長度已經長到這個效益無法忽視 : 文本Diffusion模型, 隨著前陣子Google釋出開源DiffusionGemma, 使用起來差距 : 跟同參數量的AR模型已經在1~2個世代之內. 這表示文本Diffusion已經誇過研究階段 : 正式進入工程實踐和大規模部署可能. LLM inference 目前真正的的solution 是: CXL + in/near memory compute + Compression 已經在做了, 已經有晶片出貨了, 有幾家CSP廠正在部署, 市場只有一家晶片廠有這個solution, 短時間五到十年內也只有這家晶片廠有能力做, 因為CXL是他家定義的, memory controller storage read channel 業界第一, 完全沒對手十幾年的那種, 那麼你會懷疑為何這麼厲害之前公司會那麼鳥, 請配合美光的另一篇新聞服用, 2023年之前的記憶體市場慘到幾乎全部記憶體廠都快倒了, 這家業界唯一的memory controller storage channel 當然也是快倒下面有空再說 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1782458086.A.529.html ※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 15:17:57

推 as3366700 : 看到關鍵字空了下面可以開咬哩 06/26 15:17

噓 ok020402 : 所以看多還看空直接說啦 06/26 15:18

記憶卡哇還能看多半年一年以上, 其中, DRAM 卡哇會比HBM 卡哇漲更多漲更快, 因為補漲, 也因為量會比HBM 多很多

→ onit : 這不就上次老黃演講的觀點 06/26 15:19

推 flycarb : 確實，老黃也不是空穴來風的 06/26 15:19

推 devilsabre : 推 06/26 15:19

推 hen5566 : 重點, 空! 06/26 15:20

推 fhjqwefs : 2樓在拽啥人家看多看空為啥一定要跟你講笑死人 06/26 15:20

推 ms0443001 : 台積電相對股價也沒這麼爆衝這也是原因 06/26 15:20

→ ms0443001 : 代工費都是逐步調漲不會像記憶卡吃相難看 06/26 15:20

推 ok020402 : 對不起我太兇補推 06/26 15:20

→ edison106 : CXL最強者是ALAB吧 06/26 15:21

推 herculus6502: 萬法皆空 06/26 15:21

推 devilsabre : 凡事太盡緣份勢必早盡 06/26 15:23

→ devilsabre : 缺貨就狂漲價做不久的 06/26 15:23

→ edison106 : 以前記憶體廠也是被搞很慘這波謹慎擴廠也是剛好而 06/26 15:24

→ edison106 : 已吧 06/26 15:24

→ HiuAnOP : 推這篇長期給60%毛利 EPS都會崩給你看 06/26 15:25

→ HiuAnOP : 86%毛利是什麼概念自己算看看… 06/26 15:26

因為有市場破壞者, 兩個一買一賣配合喊價, 你知道我說的是哪家公司, 你恨的牙癢癢的, 但是沒辦法, 重點是華爾街跟新聞媒體喜歡這樣造神惡搞

→ luche : 有跟小叮噹拿毛利率調整器輸入適合的毛利率機台 06/26 15:26

→ luche : 能告訴你對應的產品價格 06/26 15:26

※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 15:31:13 ※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 15:35:01

推 AndyMAX : 奧特曼還我錢https://i.imgur.com/MLIbAVL.jpeg 06/26 15:33

推 wed1979 : AI就跟互聯網一樣會爆破，但你不知道在什麼時候，記 06/26 15:35

→ wed1979 : 憶體就跟當時的網路頻寬一樣，很缺但非必要 06/26 15:35

→ Heedictator : 善良的雞最後會得到福報 06/26 15:36

→ edison106 : 記憶體非必要嗎？記憶體頻寬太低的話你的agent速度 06/26 15:37

→ edison106 : 變慢甚至聊天幾分鐘才吐出字來你等得了嗎？你覺 06/26 15:37

→ edison106 : 得非必要？ 06/26 15:37

→ edison106 : 以後進展到機器人自駕車什麼的，記憶體頻寬不夠你 06/26 15:39

→ edison106 : 反應速度變慢早就出事了這樣記憶體還非必要嗎？ 06/26 15:39

推 darkangel119: MRVL 的 team 幾乎被分拆整合到其他BU了吧 06/26 15:40

→ lokoo : 之前記憶體廠倒的時候也沒人同情 06/26 15:41

推 ben121196 : 囚徒困境是這樣的巨頭說好一起不capex那記憶體價格 06/26 15:41

→ ben121196 : 自然會降但是只要大家都怕有人砸錢砸出東西來屌打 06/26 15:41

→ ben121196 : 自己不得不capex 那就是半導體繼續噴 06/26 15:41

這個囚徒困境就是有人刻意砸錢砸出來的呀! 過去這幾年, 就是有人在扮演價格破壞者, 還一直拿效能速度來壓迫所有其他的競爭者, 才搞到現在這個情況, 不是嗎

推 Samurai : 還在說記憶體非必要的真的有在用AI嗎 06/26 15:42

記憶體是必要的, 但是記憶體頻寬不是那麼必要, 用當年網路頻寬來比喻很好呀! 有沒有網路, 有沒有記憶體, 就是能不能的問題, 但是頻寬不是能不能的問題, 是快跟慢的問題, 這又跟耐心還有使用方式有關, 我從二十幾年前在學校用很小的頻寬開始, 就是用掛機的方式在處理事情, 同樣的, 我的AI API 也是用掛機的方式, 所以快跟慢對我影響不大, 但是有些人就很在乎速度, 所以這跟人有關當然, 還有跟信仰有關, 有信仰的可以慢慢等, 沒信仰的都是拿放大鏡在算AI反應速度

推 yeay : open醬亂搞，害得谷歌倒楣，然後大家現在不想被記憶 06/26 15:46

→ yeay : 體綁架，也壓寶MRVL/ALAB。這樣理解對嗎？ 06/26 15:46

→ yeay : 不過這波AI的FOMO風潮還真的是從Chatgpt帶起來。 06/26 15:46

這是你說的, 不是我說的

推 cannedtuna : 還不能陪玩家即時玩遊戲那就還早 06/26 15:46

※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 15:57:41

推 Zending : 這篇資訊量很多很肥美，成也韓，敗也韓，終有發展 06/26 15:56

推 peterliam : a 06/26 15:56

推 wsxza : 終端消費產品貴鬆鬆 06/26 15:58

※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 16:01:07 補上原本想說的部分, 不能免俗, 先上AI 示意圖, Flux: https://imgur.com/ZlLaLzW https://imgur.com/zMgxAD4 Zimage: https://imgur.com/ucteLUG https://imgur.com/io0jBaR 買了gb10/gx10 當本地煉丹爐, 我用本地端AI 生成開箱 AI 示意圖, 統一記憶體是128GB, 速度還可以, 跟CSP的AI API差不多, 反正都在可接受的範圍所以回到LLM inference, 真的真的不需要HBM, 其實 CXL + DRAM + Compression 絕對夠用, 效能絕對比你想像得好, 真正的效能瓶頸不會在HBM, 就算差個幾秒, 真的是還好我用現在LLM API/Token的設計圖來解釋, 我請Gemini 畫一張設計圖: https://imgur.com/GmBmGwH 你可以想成CSP 伺服器端就是一大堆類似 gb10 這種機器, 每個客戶端的 API request 會發送到其中一台server處理, 所以如果gb10 速度夠, 那麼沒有HBM, 單純用DRAM+CXL, 絕對就夠用, inference 跟 training 有很大很大的不同點, training 是一個大模型大記憶體跑訓練幾個月甚至是一年兩年, 但是inference 就是一個小server for 一個client request, 一秒鐘到一分鐘就結束了, HBM真的沒差那麼多 ※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 16:19:12

推 marke18 : QQ 06/26 16:05

推 ALENDA : 推 06/26 16:12

推 afacebook : 頻寬還是需要的，如果頻寬不夠，資料傳不夠快，gpu 06/26 16:13

→ afacebook : 大量時間都在發呆 06/26 16:13

推 lightaurora : 感謝分享 06/26 16:14

推 afacebook : 頻寬不夠也不是只是慢的問題，有可能主機版整個設 06/26 16:16

→ afacebook : 計都會出問題 06/26 16:16

→ ert0700 : 其實就只是目前所謂的ai還太廢而已… 06/26 16:17

推 w60904max : 現在也有應用場景是睡前掛著給agent跑一整晚反正 06/26 16:23

→ w60904max : 早上產出是對的就好 06/26 16:23

推 DONmilK : Inference 都可以接受非HBM的速度了，那training 06/26 16:24

→ DONmilK : 是不是更適合用CXL方案來降低成本呢 06/26 16:24

目前training 沒有任何一間模型廠跟CSP敢用CXL方案, 因為training 一跑就是幾個月到一年, 頻寬速度的問題會被放大, inference 每個request 一秒到一分鐘, 頻寬速度的問題被無限縮小當然, 另一個原因是inference 可以省成本, 客戶可以接受也感覺不出差別, 便宜治百病但是training 你比對手晚發布, 效能報告差一些, 股價會崩盤, 甚至華爾街禿鷹都在等著要放空割肉

推 ck326 : 聽說某家考慮推遲 ipo 繼續蓋牌，是不是有什麼貓膩 06/26 16:27

→ ck326 : ？嘻嘻 06/26 16:27

推 ssarc : 至少現在這一波台積電沒有漲價太多，反而一直建廠 06/26 16:30

→ ssarc : 滿足需求 06/26 16:30

※ 編輯: waitrop (76.103.225.6 美國), 06/26/2026 16:36:22

→ AndyMAX : 台積也是差一點要被對岸跟三星搞死啊台積有報復性 06/26 16:37

→ AndyMAX : 漲價嗎沒有啊 06/26 16:37

推 A22813079 : xconn 06/26 16:37

推 macrohard : 99MVLL, 成本80，沒買幾週，現在只剩48 QQ 06/26 16:46

推 strlen : 說一句你業內有專業確實但你的意識型態太重會 06/26 17:13

→ strlen : 影響投資績效der 商場上講什麼道德？唉算了 06/26 17:13

→ strlen : 看到自己想想覺得我放屁也沒差我沒有意識形態沒有 06/26 17:13