[閒聊] 使用大量數據研發AI繪圖

看板C_Chat (希洽)作者 (秘密)時間6小時前 (2025/07/29 00:39), 編輯推噓24(24020)
留言44則, 31人參與, 36分鐘前最新討論串1/1
如題 看到一篇蠻有趣的東西 https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI動漫模型「Illistrious」的廣告 他們在HuggingFace上面,有把自己訓練AI用的圖集公開(圖1) 起初想說他們會這樣做,或許很有把握自己沒有侵權疑慮吧 應該是拿自己的AI圖去訓練AI(不怕越生越醜嗎) 於是有一些程式基礎的我 決定仔細研究一下 但結果告訴我……我錯了。 在「artist_urls」檔案裡面,每一位畫師都被標上了編號id 從最頂層的4437,到最底層的391586 這是極為龐大的畫師人數(圖2) 讓我想起農場中 烙印在每頭動物身上的數字 而在「artist」檔案裡面,會看到大量繪師的名字 其中亞洲(含台灣)有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜 (圖3~圖8)這時回顧一下「artist_urls」檔案 貓鯨老師被打上的編號是:150105 張熊老師被打上的編號是:144570 空罐王老師被打上的編號:38554 但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」 接著打開他們將近20GB的「post.json」檔 裡面是他們用來訓練AI模型用的大量圖集 要知道一個json檔,超過3GB,就已經是很驚人的一件事了 打開後會發現,圖片的編號從2到6899125 (也就是接近690萬) 從這些訓練圖集當中,可以找到每個畫師被拿去訓練的作品 他們也利用大型語言工具,替每張圖片上標籤,給AI辨識 例如空罐王老師苦練畫技數年,所肝出的作品 AI是這樣給標籤的: 1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear 就只貼幾張圖,剩的可以去臉書看看 https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.79.241.164 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1753720777.A.F5D.html

07/29 00:41, 6小時前 , 1F
只能檢舉下架了
07/29 00:41, 1F

07/29 00:42, 6小時前 , 2F
原來是偷的,檢舉吧
07/29 00:42, 2F

07/29 00:45, 6小時前 , 3F
基本上都是這樣 只差在有沒有公開
07/29 00:45, 3F

07/29 00:46, 6小時前 , 4F
而且不只是繪畫領域 其他也都是這樣
07/29 00:46, 4F

07/29 00:49, 6小時前 , 5F
跟盜版漫畫一樣 管不了
07/29 00:49, 5F

07/29 00:51, 6小時前 , 6F
抓別人作品訓練 這就是AI
07/29 00:51, 6F

07/29 00:52, 6小時前 , 7F
就說是大量侵權還很多人不信
07/29 00:52, 7F

07/29 00:53, 6小時前 , 8F
這個dataset也不只是這個paper用 其實傳統的資料探
07/29 00:53, 8F

07/29 00:53, 6小時前 , 9F
勘情感分析dataset也都是真人貼文 只是純文字而已
07/29 00:53, 9F

07/29 00:53, 6小時前 , 10F
gpt之類的llm就更不用說了
07/29 00:53, 10F

07/29 00:54, 6小時前 , 11F
就某站的dataset吧,看容量快8TB
07/29 00:54, 11F

07/29 00:54, 6小時前 , 12F
post id取mod 1000當 bucket
07/29 00:54, 12F

07/29 00:54, 6小時前 , 13F
沒寄生繪師就只能搞擬真那種圖而已
07/29 00:54, 13F

07/29 00:55, 6小時前 , 14F
真用就算了,假掰說自己沒用真的很討厭
07/29 00:55, 14F

07/29 00:55, 6小時前 , 15F
怎摸會有人把訓練資料公開
07/29 00:55, 15F

07/29 01:02, 6小時前 , 16F
老實說 幾乎每個AI模型都難免用到沒授權的繪師
07/29 01:02, 16F

07/29 01:02, 6小時前 , 17F
只差在有沒有說出來了
07/29 01:02, 17F

07/29 01:06, 6小時前 , 18F
AI就是打著科技進步的名號大量偷竊別人的心血
07/29 01:06, 18F

07/29 01:11, 6小時前 , 19F
novlai時代就在這樣搞了 畫師名字直接就能當提示詞
07/29 01:11, 19F

07/29 01:17, 6小時前 , 20F
把繪師簡化成編號真夠侮辱人的,但這種ai負面文章不
07/29 01:17, 20F

07/29 01:17, 6小時前 , 21F
會推爆的
07/29 01:17, 21F

07/29 01:20, 6小時前 , 22F
偷圖片訓練 ai 可恥
07/29 01:20, 22F

07/29 01:25, 6小時前 , 23F
人類究竟只是ai的飼料罷了
07/29 01:25, 23F

07/29 01:39, 5小時前 , 24F
現在各家AI飆車飆那麼兇也是為了在相關規範法令被
07/29 01:39, 24F

07/29 01:39, 5小時前 , 25F
重視以前盡可能偷跑更多一點 法律沒說這樣不行我就
07/29 01:39, 25F

07/29 01:39, 5小時前 , 26F
儘量搶
07/29 01:39, 26F

07/29 01:43, 5小時前 , 27F
其實更多的是政府也知道是在偷 但全部都在偷誰禁誰就
07/29 01:43, 27F

07/29 01:43, 5小時前 , 28F
落後 慘
07/29 01:43, 28F

07/29 01:44, 5小時前 , 29F
我記得川普已經開綠燈說AI使用是fair use了
07/29 01:44, 29F

07/29 01:55, 5小時前 , 30F
畢竟都是軍備競賽的材料
07/29 01:55, 30F

07/29 01:57, 5小時前 , 31F
這種模型本來就是靠偷阿 只是敢公開也是蠻厲害的
07/29 01:57, 31F

07/29 01:58, 5小時前 , 32F
大概就是真的篤定反正你圖抓不了我
07/29 01:58, 32F

07/29 02:01, 5小時前 , 33F
好用的模型 就算你告一個還會有下一個 這就是ai時代
07/29 02:01, 33F

07/29 02:03, 5小時前 , 34F
這不是早就知道的東西嗎
07/29 02:03, 34F

07/29 02:03, 5小時前 , 35F
天下第一搶劫大賽
07/29 02:03, 35F

07/29 02:06, 5小時前 , 36F
吉他
07/29 02:06, 36F

07/29 02:18, 5小時前 , 37F
可恥 果然只要是Ai生成的圖都是垃圾
07/29 02:18, 37F

07/29 02:53, 4小時前 , 38F
ai飼料是現在的早期階段 成熟期的模型不需要人類餵
07/29 02:53, 38F

07/29 03:30, 4小時前 , 39F
d站這樣標這樣分都十幾二十年了好嗎..
07/29 03:30, 39F

07/29 04:00, 3小時前 , 40F
這個爬蟲最扯的其實是連噗浪都掃
07/29 04:00, 40F

07/29 05:19, 2小時前 , 41F
早就授權給社群網站了
07/29 05:19, 41F

07/29 06:47, 49分鐘前 , 42F
笑死 不接受AI就等著被淘汰
07/29 06:47, 42F

07/29 07:00, 36分鐘前 , 43F
身為機器學習時代自己蒐集資料開始玩ai 的人 看到現在這
07/29 07:00, 43F

07/29 07:00, 36分鐘前 , 44F
些大公司的玩法 真的讓人覺得很寒心
07/29 07:00, 44F
文章代碼(AID): #1eXwV9zT (C_Chat)
文章代碼(AID): #1eXwV9zT (C_Chat)