🔥 PTT.BEST 熱門專區 💬 八卦 Gossiping 😊 希洽 C_Chat 💰 股票 Stock 🏠 房屋 home-sale 🏀 美國職籃 NBA ⚾ 棒球 Baseball 👛 省錢 Lifeismoney 🚗 汽車 car 😡 政黑 HatePolitics 💻 電蝦 PC_Shopping 🥰 韓星 KoreaStar ✨ 英雄聯盟 LoL 🍿 電影 movie 🪖 軍事 Military 📡 通訊 MobileComm 🏀 台籃 basketballTW 🍼 寶媽 BabyMother 🇯🇵 日旅 Japan_Travel 🏭 科技 Tech_Job 👧 女孩 WomenTalk 👻 媽佛 marvel 💳 卡版 creditcard 👉 NS NSwitch 👉 PS5 PlayStation 👉 大氣 TY_Research 👉 婚姻 marriage 👉 台南 Tainan 👉 台中 TaichungBun 👉 Steam Steam 👉 高雄 Kaohsiung 👉 羽球 Badminton 👉 超商 CVS 👉 米哈遊 miHoYo 👉 iOS 👉 兄弟 Elephants 👉 日劇 Japandrama 👉 玄幻 CFantasy 👉 ES e-shopping 👉 WOW 👉 遊戲交易 Gamesale 👉 4X BaseballXXXX 👉 Lakers 👉 韓劇 KoreaDrama 👉 汽車買賣 CarShop 👉 機車 biker 👉 新竹 Hsinchu 👉 美保 BeautySalon 👉 串流 OTT 👉 歐美影集 EAseries 👉 手機交易 mobilesales 👉 健身 MuscleBeach 👉 MacShop 👉 Lions 👉 FGO FATE_GO 👉 中劇 China-Drama 👉 數位貨幣 DigiCurrency 👉 暗黑 DIABLO 👉 實習教師 studyteacher 👉 航空 Aviation 👉 藝文票券轉售 Drama-Ticket 👉 韓綜 KR_Entertain 👉 美妝 MakeUp 👉 速食 fastfood 👉 手錶 watch 👉 體適能 FITNESS 👉 攝影 DSLR 👉 Headphone 👉 嘻哈 Hip-Hop 👉 轉珠 PuzzleDragon 👉 美食 Food 👉 蔚藍 BlueArchive 👉 數位相機交易 DC_SALE 👉 筆電蝦 nb-shopping 👉 軟工 Soft_Job 👉 汪踢 Wanted 👉 台綜 TW_Entertain 👉 坂道閒聊 SakaTalk 👉 貓咪 cat 👉 日GO BabyProducts 👉 TypeMoon 👉 MLB 👉 職場 Salary 👉 臺劇 TaiwanDrama 👉 海賊王 ONE_PIECE 👉 PMGO PokemonGO 👉 國營 Gov_owned 👉 碧航 AzurLane 👉 家電 E-appliance 👉 布蘭德 Brand 👉 DMMG DMM_GAMES 👉 贈送 give 👉 神魔 ToS 👉 銀行服務板 Bank_Service 👉 原創 YuanChuang 👉 期權 Option 👉 重機 SuperBike
如題 看到一篇蠻有趣的東西 https://i.imgur.com/d6GUwOU.jpeg 最近在FB 上看到AI動漫模型「Illistrious」的廣告 他們在HuggingFace上面,有把自己訓練AI用的圖集公開(圖1) 起初想說他們會這樣做,或許很有把握自己沒有侵權疑慮吧 應該是拿自己的AI圖去訓練AI(不怕越生越醜嗎) 於是有一些程式基礎的我 決定仔細研究一下 但結果告訴我……我錯了。 在「artist_urls」檔案裡面,每一位畫師都被標上了編號id 從最頂層的4437,到最底層的391586 這是極為龐大的畫師人數(圖2) 讓我想起農場中 烙印在每頭動物身上的數字 而在「artist」檔案裡面,會看到大量繪師的名字 其中亞洲(含台灣)有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜 (圖3~圖8)這時回顧一下「artist_urls」檔案 貓鯨老師被打上的編號是:150105 張熊老師被打上的編號是:144570 空罐王老師被打上的編號:38554 但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」 接著打開他們將近20GB的「post.json」檔 裡面是他們用來訓練AI模型用的大量圖集 要知道一個json檔,超過3GB,就已經是很驚人的一件事了 打開後會發現,圖片的編號從2到6899125 (也就是接近690萬) 從這些訓練圖集當中,可以找到每個畫師被拿去訓練的作品 他們也利用大型語言工具,替每張圖片上標籤,給AI辨識 例如空罐王老師苦練畫技數年,所肝出的作品 AI是這樣給標籤的: 1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear 就只貼幾張圖,剩的可以去臉書看看 https://i.imgur.com/9O8VjYL.jpeg https://i.imgur.com/1I0vVpS.jpeg https://www.facebook.com/share/p/19Fy1t3cyD/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.241.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1753720777.A.F5D.html
KyuubiKulama: 只能檢舉下架了 07/29 00:41
zChika: 原來是偷的,檢舉吧 07/29 00:42
gm79227922: 基本上都是這樣 只差在有沒有公開 07/29 00:45
gm79227922: 而且不只是繪畫領域 其他也都是這樣 07/29 00:46
AJwan: 跟盜版漫畫一樣 管不了 07/29 00:49
kimokimocom: 抓別人作品訓練 這就是AI 07/29 00:51
Golbeza: 就說是大量侵權還很多人不信 07/29 00:52
vincent8914: 這個dataset也不只是這個paper用 其實傳統的資料探 07/29 00:53
vincent8914: 勘情感分析dataset也都是真人貼文 只是純文字而已 07/29 00:53
vincent8914: gpt之類的llm就更不用說了 07/29 00:53
inte629l: 就某站的dataset吧,看容量快8TB 07/29 00:54
inte629l: post id取mod 1000當 bucket 07/29 00:54
yellowhow: 沒寄生繪師就只能搞擬真那種圖而已 07/29 00:54
yellowhow: 真用就算了,假掰說自己沒用真的很討厭 07/29 00:55
lou3612: 怎摸會有人把訓練資料公開 07/29 00:55
dalyadam: 老實說 幾乎每個AI模型都難免用到沒授權的繪師 07/29 01:02
dalyadam: 只差在有沒有說出來了 07/29 01:02
shawncarter: AI就是打著科技進步的名號大量偷竊別人的心血 07/29 01:06
as3366700: novlai時代就在這樣搞了 畫師名字直接就能當提示詞 07/29 01:11
RabbitHorse: 把繪師簡化成編號真夠侮辱人的,但這種ai負面文章不 07/29 01:17
RabbitHorse: 會推爆的 07/29 01:17
ym951305: 偷圖片訓練 ai 可恥 07/29 01:20
felixr0123: 人類究竟只是ai的飼料罷了 07/29 01:25
willytp97121: 現在各家AI飆車飆那麼兇也是為了在相關規範法令被 07/29 01:39
willytp97121: 重視以前盡可能偷跑更多一點 法律沒說這樣不行我就 07/29 01:39
willytp97121: 儘量搶 07/29 01:39
gm79227922: 其實更多的是政府也知道是在偷 但全部都在偷誰禁誰就 07/29 01:43
gm79227922: 落後 慘 07/29 01:43
meatybobby: 我記得川普已經開綠燈說AI使用是fair use了 07/29 01:44
trh123h: 畢竟都是軍備競賽的材料 07/29 01:55
Jiajun0724: 這種模型本來就是靠偷阿 只是敢公開也是蠻厲害的 07/29 01:57
Jiajun0724: 大概就是真的篤定反正你圖抓不了我 07/29 01:58
k254369: 好用的模型 就算你告一個還會有下一個 這就是ai時代 07/29 02:01
clovewind: 這不是早就知道的東西嗎 07/29 02:03
SweetBreaker: 天下第一搶劫大賽 07/29 02:03
smart0eddie: 吉他 07/29 02:06
zen777: 可恥 果然只要是Ai生成的圖都是垃圾 07/29 02:18
sameber520: ai飼料是現在的早期階段 成熟期的模型不需要人類餵 07/29 02:53
error405: d站這樣標這樣分都十幾二十年了好嗎.. 07/29 03:30
rockmanx52: 這個爬蟲最扯的其實是連噗浪都掃 07/29 04:00
WindSucker: 早就授權給社群網站了 07/29 05:19
low1219: 笑死 不接受AI就等著被淘汰 07/29 06:47
b160160: 身為機器學習時代自己蒐集資料開始玩ai 的人 看到現在這 07/29 07:00
b160160: 些大公司的玩法 真的讓人覺得很寒心 07/29 07:00
xsdferty035: AI就是這樣 網路上所有的圖片和文字都是訓練素材 07/29 07:32
starsheep013: 不意外 07/29 07:51
mirarearia: 就噁心啊 07/29 08:12
Kurumi2000: ?這不是早就知道的事情嗎 還有人不知道嗎 07/29 08:14
EfiwymsiAros: 那你可以告他 07/29 08:22
h0103661: 說侵權的倒是說說犯了哪條法律啊 07/29 08:23
h0103661: 事實就是你說禁止ai學習不具有法律效益 07/29 08:23
h0103661: ai學圖違規那人學圖是不是也違規 07/29 08:24
vhik4596: 這幾乎等於是偷東西還把被害者編號,這也太變態了吧 07/29 08:24
qaz95677: 果然ai仔=零元購 07/29 08:32
Ceferino: 現在的AI公司誰不是這樣玩的,google meta 微軟都一樣 07/29 08:33
Yoimiya: 這不是早就知道了嗎 你以為寫個禁止AI 人家就不會用? 07/29 08:50

😊 希洽 C_Chat 版:熱門文章

😊 希洽 C_Chat 版:更多文章