🔥 PTT.BEST 批踢踢爆文 💬 八卦 Gossiping 😊 希洽 C_Chat 💰 股票 Stock 🏠 房屋 home-sale 🏀 美國職籃 NBA ⚾ 棒球 Baseball 👛 省錢 Lifeismoney 🚗 汽車 car 😡 政黑 HatePolitics 💻 電蝦 PC_Shopping 🥰 韓星 KoreaStar ✨ 英雄聯盟 LoL 🍿 電影 movie 🪖 軍事 Military 📡 通訊 MobileComm 🏀 台籃 basketballTW 🍼 寶媽 BabyMother 🇯🇵 日旅 Japan_Travel 🏭 科技 Tech_Job 👧 女孩 WomenTalk 👻 媽佛 marvel 💳 卡版 creditcard 👉 NS NSwitch 👉 PS5 PlayStation 👉 大氣 TY_Research 👉 婚姻 marriage 👉 台南 Tainan 👉 台中 TaichungBun 👉 Steam Steam 👉 高雄 Kaohsiung 👉 羽球 Badminton 👉 超商 CVS 👉 米哈遊 miHoYo 👉 iOS 👉 兄弟 Elephants 👉 日劇 Japandrama 👉 玄幻 CFantasy 👉 ES e-shopping 👉 WOW 👉 遊戲交易 Gamesale 👉 4X BaseballXXXX 👉 Lakers 👉 韓劇 KoreaDrama 👉 汽車買賣 CarShop 👉 機車 biker 👉 新竹 Hsinchu 👉 美保 BeautySalon 👉 串流 OTT 👉 歐美影集 EAseries 👉 手機交易 mobilesales 👉 健身 MuscleBeach 👉 MacShop 👉 Lions 👉 FGO FATE_GO 👉 中劇 China-Drama 👉 數位貨幣 DigiCurrency 👉 暗黑 DIABLO 👉 實習教師 studyteacher 👉 航空 Aviation 👉 藝文票券轉售 Drama-Ticket 👉 韓綜 KR_Entertain 👉 美妝 MakeUp 👉 速食 fastfood 👉 手錶 watch 👉 體適能 FITNESS 👉 攝影 DSLR 👉 Headphone 👉 嘻哈 Hip-Hop 👉 轉珠 PuzzleDragon 👉 美食 Food 👉 蔚藍 BlueArchive 👉 數位相機交易 DC_SALE 👉 筆電蝦 nb-shopping 👉 軟工 Soft_Job 👉 汪踢 Wanted 👉 台綜 TW_Entertain 👉 坂道閒聊 SakaTalk 👉 貓咪 cat 👉 日GO BabyProducts 👉 TypeMoon 👉 MLB 👉 職場 Salary 👉 臺劇 TaiwanDrama 👉 海賊王 ONE_PIECE 👉 PMGO PokemonGO 👉 國營 Gov_owned 👉 碧航 AzurLane 👉 家電 E-appliance 👉 布蘭德 Brand 👉 DMMG DMM_GAMES 👉 贈送 give 👉 神魔 ToS 👉 銀行服務板 Bank_Service 👉 原創 YuanChuang 👉 期權 Option 👉 重機 SuperBike
※ 引述《Supasizeit (Shitpost King)》之銘言: : 阿北當年聯考數學95 : 可是沒有念資工 : 今天心血來潮 : 嘗試理解LLM transformer 原理 : 可是講到token就聽不懂了 : 然後又變成embedding : 弄一弄變成weights : 怎麼突然就變成attention block : 這不是大學生每個都懂的東西嗎 不是 : 我是不是失智了 所謂語言模型在處理什麼?其實就是人類的語言嘛。 所以除了要數學上的思考,也要站在人類語言的角度去理解。 那麼,token 是什麼? 其實就是模型讀入的最小單位。 這個 token 可能是word subword(類似字首字根) character等等。 英文主流的做法多半是用subword來分(如果有錯請糾正 XD)。 為什麼要這樣分? 想一想其實很合理。對人類來說,語言中意義的最小單位是什麼? 像 "dog" 這個字沒什麼好拆的,如果拆成 "d" 和 "og",對人類完全沒意義,和「狗」無關。 但有些字是由小單位的意義組成,例如 re-organ-ization。 怎麼切的話,算是演算法決定的, 不過,表現好的切法,通常人類看了也會覺得切得有道理。 Embedding 就是把每個詞轉換成向量。 因為模型只能處理數字, 所以需要建立一個 token → embedding(向量) 的對應表, 再把語言的意義透過向量來處理。 問題是,怎麼建立這個對應表? 在機器學習裡,最簡單的方式就是 one-hot。 例如: dog → (1,0,0) cat → (0,1,0) mouse → (0,0,1) 可是這樣效率很差。 語言裡動輒上萬個 token,多語言甚至可能上百萬。 這樣輸入輸出的維度就超大,還有很多同義詞、近義詞白白浪費空間。 因此通常不會用 one-hot,而是對應到一個「較小維度」的向量空間(幾百到幾千維)。 而且這些向量對應不是隨便定義,而是透過模型訓練學出來的。 這樣才能讓向量比較具備語義,例如: cat 與 kitty 的距離最近 cat 與 dog 比較遠 cat 與 car 幾乎沒關係 簡單來說,embedding 就是在機器學習裡, 模型可讀取的意義/資訊表達,通常是一個多維向量。 是機器理解概念的方式。 至於 Transformer,可以想成對人類理解語言方式的一種模仿。 網路流行說:「每個字都看得懂,但合起來卻看不懂。」 這正是語言理解的關鍵—— 人會先讀懂單字,再把上下文合起來理解。 文字擺在一起才有整體意義, 而單字的意義常常是上下文決定的。 舉例: 英文的 interest 可以指「利益」、「利息」、「興趣」。 當前後文提到貸款和數字時,我們會理解成「利息」。 當出現娛樂相關語境時,就會理解成「興趣」。 Transformer 的重點就是: 從原本的單詞意義出發(token/embedding),找出上下文關聯,合成新的語意, 新的、更精準的含上下文embedding (contextual embedding)。 哪些字彼此有關聯,模型就會把它們合起來看。 例如 interest 與 loan 一起出現時,模型就會發現它們高度相關,進而推斷這裡指的是 「利息」。 Transformer 的核心是 自注意力機制。 它的訓練目標之一,就是讓模型學會: 某個 token(或 embedding)應該去「注意」哪些其他 token。 這就是所謂的「注意力」。 意思是:當看到這個詞時,應該去關注哪些相關的詞, 而這些相關詞會幫助模型正確理解它的意義。 所以不管是 token → embedding 的對應,還是 Transformer 的結構與訓練, 核心其實都是 字與字之間的關係。 也因此可以說:單一詞彙本身不構成意義,關係才構成意義。 現代機器學習方法,很多都是在模仿人類思考。 有時候拿來跟人類的理解、學習、思考方式對比, 會發現很有趣。 --- 附:注意力的數學/模型簡論 token → embedding → (Q, K, V) embedding 後面這個箭頭,就是訓練的部分: 怎麼把原本的 embedding 轉成 Q、K、V。 V 基本上就是語意表達本身。 Q 可以理解成「這個 token 應該去找哪些的 token 來注意」。 K 可以理解成「這個 token 該被哪些其他 token 注意」。 兩個 token 之間的注意力, 就是它們各自的 Q 與 K 的內積。 內積越大,關係越強,模型就越會去注意。 於是就利用注意力加權合併,就得到含上下文資訊的新embedding。 --- 回到你的問題 token -> 演算法切出的最小語意單元 embedding -> token的向量表示,好的embedding會包含字詞的意義訊息。 weights -> 應該是指 embedding轉成 V Q K 的參數(怎麼轉成VQK的) attention block -> transformer很複雜,裡面可能會有很多上述的注意力小模型串聯 並聯,attention block應該就是指每個小部分。 有懂嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.237.207.106 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757635162.A.3CB.html
brianuser: 沒有,但謝謝你的用心解說 218.164.23.48 09/12 08:00
herculus6502: 這篇你打多久 1.175.167.246 09/12 08:00
akito703: 長知識223.136.132.159 09/12 08:01
wanderchang: 懂了 118.165.93.61 09/12 08:02
fallinlove15: 講的很基礎 36.225.32.104 09/12 08:02
firose: 為什麼內積越大關係越強 111.241.51.73 09/12 08:05
模型算法是人訂的, 你先訂出內積越大關係越強 假如你模型訓練得好 之後訓練出來,相關文字的Q K向量,自然會相近 在理工方面這是很直覺的訂法,A B向量的相似程度就是 A‧B/(|A||B|) 在推薦系統的模型裡,也常常運用這概念
sha09876: 我以為是紅茶文,想說拉到最下面怎麼沒 36.230.217.48 09/12 08:07
sha09876: 有業業老公 36.230.217.48 09/12 08:08
assommoir: 推推 49.218.230.5 09/12 08:08
PPCYes: 6樓該複習一下高中數學 1.171.174.232 09/12 08:10
miniric: 內積越大代表這個向量在這個空間越靠近 220.143.193.51 09/12 08:11
miniric: 彼此,也就是意義越近。反之也有意義相 220.143.193.51 09/12 08:11
miniric: 反或者無相關性的概念存在。 220.143.193.51 09/12 08:11
miniric: 在資料科學中也有一種叫做 cosine 相似 220.143.193.51 09/12 08:13
miniric: 度 就是運用內積概念 220.143.193.51 09/12 08:13
ohyeah5566: 有趣 111.184.47.89 09/12 08:15
changmada: 看到一半往下找竟然沒出現胡歌老公 49.217.136.49 09/12 08:15
alotofjeff: 高手 42.79.5.233 09/12 08:15
zxc0312: 人家聯考數學99分? 118.153.237.3 09/12 08:16
phosphazene: 邏輯清晰 講得讓人淺顯易懂 59.124.93.79 09/12 08:16
g933246: 好文推一下 111.82.124.36 09/12 08:18
franktpmvu: 有料 36.226.120.222 09/12 08:20
yellowocean: 寫的超好懂,推一個 49.216.232.166 09/12 08:20
searoar: 太早了 推 114.34.203.69 09/12 08:23
s4511981: 眼睛:懂了。腦子:蛤? 111.249.27.193 09/12 08:24
jubilee: 推,寫得很清楚 114.137.226.77 09/12 08:24
renfro928: 推 49.217.194.66 09/12 08:25
Anyotw: 數甲90分,沒懂怎麼辦。我要從哪邊開始複 27.240.242.120 09/12 08:26
Anyotw: 習 27.240.242.120 09/12 08:26
有問題的可能不是算術能力吧 除非矩陣向量都忘光, 也只有用到矩陣向量而已, 比較難的可能是概念。
t81511270: 眼睛: 懂了 腦袋:塞不下這麼多token 125.231.7.199 09/12 08:26
wulongman: 讚喔 114.35.12.50 09/12 08:26
jeffguoft: 不錯哦,感謝分享 203.77.42.214 09/12 08:27
lance2136: 長知識了 39.10.65.32 09/12 08:28
Pmking: 推 220.136.83.68 09/12 08:28
tmuejoelin: 難得有優文 27.51.56.108 09/12 08:29
slurpee: ptt真的是包羅萬象 49.216.193.211 09/12 08:30
Mikuni: 推認真解說 111.71.92.200 09/12 08:30
slurpee: 懶得看但先推用心解說 49.216.193.211 09/12 08:30
SORAChung: 講的很基礎也很清楚,謝謝 111.251.74.226 09/12 08:32
hicjgogogo: 老師好 1.171.99.161 09/12 08:32
aa890051: 長知識了,推 42.73.74.73 09/12 08:32
starwillow: 好厲害講的外行人如我都能懂 39.9.229.8 09/12 08:33
fukku100: QKV的解釋不錯 39.12.105.66 09/12 08:34
Tassadar250: 哇,不錯耶114.136.239.150 09/12 08:35
somesomeone: 億點點懂給推 223.23.147.109 09/12 08:36
mrcat: 推推 49.218.243.52 09/12 08:39
ariadne: 真難得 竟然沒有期待的胡歌老公出現220.133.244.143 09/12 08:39
anneju: 推 133.200.42.0 09/12 08:40
koty6069: 推 解釋得好 42.70.214.247 09/12 08:40
rickphyman42: 說明的很清楚 讚 49.216.40.148 09/12 08:40
birdhouse1: 長知識推150.116.175.232 09/12 08:40
a40494: 我看完前段想說是不是阿月 42.75.16.131 09/12 08:42
Usaria: 推 114.136.162.66 09/12 08:42
solidworker: 長知識 推 223.137.182.7 09/12 08:42
※ 編輯: newwu (98.237.207.106 美國), 09/12/2025 08:45:20
LoveSports: 推 67.213.123.106 09/12 08:44
Aeolus1981: 感謝優文 111.82.197.219 09/12 08:44
LiarHunter: 理解了 114.136.102.18 09/12 08:45
pila0830: 推!淺顯易懂 101.8.131.142 09/12 08:45
js01078687: 推 42.70.115.154 09/12 08:46
ezafine: 早 114.136.42.169 09/12 08:46
henry4204aaa: 很好懂 謝謝 59.142.13.148 09/12 08:47
xhs: 神經網路能不能的解釋一下 什麼是RNn CNN FNN118.166.206.238 09/12 08:47
utn875: 優文 推 111.71.95.128 09/12 08:47
xhs: GAN118.166.206.238 09/12 08:47
bon01215: 終於有不是政治文的優質文了 111.82.217.115 09/12 08:47
ffgordon: 推 49.214.2.153 09/12 08:48
jb0110: 學到了 42.75.97.59 09/12 08:48
spksf0118666: 有所收穫,謝謝。223.139.213.240 09/12 08:49
pigvit: 推 給個讚 多懂了不少知識 118.166.20.188 09/12 08:49
behind0416: 好文感謝推!122.117.128.184 09/12 08:49
liefuchen: ML的理論基礎其實跟資工也沒太大關係 42.73.80.67 09/12 08:50
liefuchen: 就是 所以有些人會有種我明明會寫程式 42.73.80.67 09/12 08:50
liefuchen: 卻看不懂在幹嘛的感覺 42.73.80.67 09/12 08:50
y7moremore: 這是人類能理解的東西嗎 210.244.89.24 09/12 08:53
findwind0826: 就是模仿人類思維 61.220.100.151 09/12 08:54
findwind0826: 只是用程式模擬人類思維的方式 61.220.100.151 09/12 08:54
findwind0826: 當然token目前最好模仿的還是語言 61.220.100.151 09/12 08:54
Hscyin: 推 27.247.69.226 09/12 08:54
ok8ok8: 推一個 211.20.147.161 09/12 08:55
kiuygtde: 優文推 114.26.118.212 09/12 08:55
sharkman1793: transformer原理翻成中文是什麼意思118.166.206.238 09/12 08:57
sharkman1793: ?118.166.206.238 09/12 08:57
ok8ok8: 樓上 變形金剛阿 211.20.147.161 09/12 08:58
xx60824xx: 專業 101.9.103.155 09/12 08:58

💬 八卦 Gossiping 版:熱門文章

💬 八卦 Gossiping 版:更多文章