Re: [閒聊] 使用大量數據研發AI繪圖

看板C_Chat (希洽)作者時間10小時前 (2025/07/29 08:27), 10小時前編輯推噓9(9013)
留言22則, 12人參與, 9小時前最新討論串2/2 (看更多)
※ 引述《ElfFail (秘密)》之銘言: : 如題 : 看到一篇蠻有趣的東西 : https://i.imgur.com/d6GUwOU.jpeg
: 最近在FB 上看到AI動漫模型「Illistrious」的廣告 : 他們在HuggingFace上面,有把自己訓練AI用的圖集公開(圖1) : 起初想說他們會這樣做,或許很有把握自己沒有侵權疑慮吧 : 應該是拿自己的AI圖去訓練AI(不怕越生越醜嗎) : 於是有一些程式基礎的我 決定仔細研究一下 : 但結果告訴我……我錯了。 : 在「artist_urls」檔案裡面,每一位畫師都被標上了編號id : 從最頂層的4437,到最底層的391586 : 這是極為龐大的畫師人數(圖2) : 讓我想起農場中 烙印在每頭動物身上的數字 : 而在「artist」檔案裡面,會看到大量繪師的名字 : 其中亞洲(含台灣)有貓鯨、張熊、空罐王等破萬追蹤繪師們上榜 : (圖3~圖8)這時回顧一下「artist_urls」檔案 : 貓鯨老師被打上的編號是:150105 : 張熊老師被打上的編號是:144570 : 空罐王老師被打上的編號:38554 : 但貓鯨老師的Twitter明明已寫上「Do not use my work for AI」 : 接著打開他們將近20GB的「post.json」檔 : 裡面是他們用來訓練AI模型用的大量圖集 : 要知道一個json檔,超過3GB,就已經是很驚人的一件事了 : 打開後會發現,圖片的編號從2到6899125 : (也就是接近690萬) : 從這些訓練圖集當中,可以找到每個畫師被拿去訓練的作品 : 他們也利用大型語言工具,替每張圖片上標籤,給AI辨識 : 例如空罐王老師苦練畫技數年,所肝出的作品 : AI是這樣給標籤的: : 1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff : ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o : ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm : ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear : 就只貼幾張圖,剩的可以去臉書看看 : https://i.imgur.com/9O8VjYL.jpeg
: https://i.imgur.com/1I0vVpS.jpeg
: https://www.facebook.com/share/p/19Fy1t3cyD/ 我發現很像很多人對這個編號有很深的誤會w 以為這是做模型的人蒐集資料然後還給繪師打上編號還公開之類的 但其實不是這樣的 這就只是抓了紙箱上的資料而已 誰家吃飽太閒還自己去搜自己建編號自己幫圖片上tag阿== 比如說空罐王的38554 https://i.meee.com.tw/YNbmO2J.png
就是紙箱上同編號 如此而已 做AI會爬資料沒錯 但是有現成的還要自己爬 怎麼可能 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.144.14 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1753748822.A.081.html

07/29 08:31, 10小時前 , 1F
每一位繪師都被標上編號......XD
07/29 08:31, 1F

07/29 08:34, 10小時前 , 2F
你就說有沒有被編號(x
07/29 08:34, 2F

07/29 08:34, 10小時前 , 3F
盜用是一回事,這篇這段看起來就很像那種民俗專家用奇
07/29 08:34, 3F

07/29 08:34, 10小時前 , 4F
怪的觀點去講科學的東西一樣
07/29 08:34, 4F
看到不少繪師在那邊下載 研究怎麼看自己編號 感覺略魔幻XD

07/29 08:35, 10小時前 , 5F
早在AI出現前就已經被抓去編號了上tag了
07/29 08:35, 5F

07/29 08:35, 10小時前 , 6F
啊幹你要不要說你註冊一個網站他發給你uid就是等於你像
07/29 08:35, 6F

07/29 08:35, 10小時前 , 7F
動物一樣打上編號
07/29 08:35, 7F

07/29 08:35, 10小時前 , 8F
要說上編號的話 pixiv user id也是編號XD
07/29 08:35, 8F

07/29 08:36, 10小時前 , 9F
不知道那種人再看到熊貓會不會氣死
07/29 08:36, 9F
紙箱應該不少人知道吧 熊貓知道的應該更多 只是他們沒注意到很多二次風的模型是抓紙箱資料而已

07/29 08:36, 10小時前 , 10F
那個資料集是標註給圖片分類的至少表面上不是給圖片
07/29 08:36, 10F

07/29 08:36, 10小時前 , 11F
生成
07/29 08:36, 11F

07/29 08:36, 10小時前 , 12F
他正在用的FB不是也給他一個編號,他有沒有覺得很恐怖
07/29 08:36, 12F

07/29 08:39, 10小時前 , 13F
日本我不知道啦,但台灣每個人都有身分證號碼不是嗎XD…
07/29 08:39, 13F

07/29 08:54, 10小時前 , 14F
推推
07/29 08:54, 14F

07/29 09:03, 10小時前 , 15F
怎麼這邊這麼歪o.o
07/29 09:03, 15F
※ 編輯: guogu (118.167.144.14 臺灣), 07/29/2025 09:10:09

07/29 09:06, 10小時前 , 16F
最一開始紅的NOVEAI就明牌爬紙箱網練模型了,畫師名字
07/29 09:06, 16F

07/29 09:07, 10小時前 , 17F
直接當提示詞也是行之有年 有種大家發現火是火的美感
07/29 09:07, 17F

07/29 09:11, 10小時前 , 18F
我反而訝異繪師不知道紙箱id,想說他們應該會上去查自己
07/29 09:11, 18F

07/29 09:11, 10小時前 , 19F
才對...
07/29 09:11, 19F

07/29 09:33, 9小時前 , 20F
碼農:想命名什麼有夠煩的隨便上個流水號 繪師:這號
07/29 09:33, 20F

07/29 09:33, 9小時前 , 21F
碼肯定有我們不知道的個別意義
07/29 09:33, 21F

07/29 09:53, 9小時前 , 22F
就直接紙箱id, 自動打標而已,藍色窗簾開太大
07/29 09:53, 22F
文章代碼(AID): #1eY1LM21 (C_Chat)
文章代碼(AID): #1eY1LM21 (C_Chat)