[瑟瑟] 看色圖不求人Part2 AI生成色圖全教學已回收

看板C_Chat (希洽)作者cybermeow (北歐組一生推)時間3年前 (2022/09/20 09:37)推噓46(46推 0噓 16→)

留言62則, 50人參與討論串1/1

古拉鎮樓 (從Discord搬運非本人生成) https://i.imgur.com/HWRVeJW.png

Part 1 在這 https://www.pttweb.cc/bbs/C_Chat/M.1662444496.A.2E6 不重要過時了這篇將包含所有你生成色圖需要的資訊 1. 使用者界面 Stable Diffusion Webui 天天更新官方的在這裡 https://github.com/sd-webui/stable-diffusion-webui 但個別版本一堆主流好像是用1111的個人也是用這個 https://github.com/AUTOMATIC1111/stable-diffusion-webui 跑起來大概長這樣 https://i.imgur.com/JmYKTSv.png

安裝方式按照每個網站說的像是官方的寫這樣 windows https://github.com/sd-webui/stable-diffusion-webui/blob/master/docs/1.installati on.md linux https://github.com/sd-webui/stable-diffusion-webui/blob/master/docs/1.linux-inst allation.md 1111的Nvidia卡寫這樣 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-o n-NVidia-GPUs 個人linux就是clone回來開conda環境跑python launch.py 有dependency問題就修然後就好了另外也有用Google Colab的選擇只想測試沒有要瑟瑟的人可以用使用上就像上面那張可以選擇 postive 跟 negative prompt https://i.imgur.com/JmYKTSv.png

(negative prompt 貌似只有 1111 的有支援) positive個人一般放 artwork of ... 之類的 negative很迷可以放一些感覺負面的東西 (如圖中所示) 也可以試著避開一些結果例如把opened mouth放過去讓嘴巴閉起來之類的到底怎麼找到合適的prompt蠻不直覺的而且很浪費時間畢竟這個東西一個月後大概就長不一樣了所以下面會介紹其他方式來生成想要圖片 2.模型有了使用者界面最重要的當然是模型本身幸運的是現在很多人在訓練從一般的到動畫到瑟瑟到pony到furry都有這裡整理了一些 https://rentry.org/yrpvv 一般ACG用Waifu Diffusion 這週末會釋出v1.3 要瑟瑟用Lewd Diffusion 不太好控目前只是beta beta beta版本大老們還持續在蒐集資料跟訓練中載下來後傳到webui資料夾裡面models的資料夾就可以用了理論上用哪個模型現在可以直接在Settings換就可以不過目前似乎有bug所以behavior有點迷有時候直接整個關掉重開比較方便另外因為是開一個port 可以在伺服器開外部ssh進去也有支援直接public開給人用等等 3.圖片生成: 學習概念篇如上所說要用prompt生成想要的圖片實在不易所以個人推薦自己跑一個 textual inversion 學習你想要的概念的embedding 之前已經發了好幾篇實作案例 https://www.pttweb.cc/bbs/C_Chat/M.1662622748.A.4E6 https://www.pttweb.cc/bbs/C_Chat/M.1662808060.A.746 https://www.pttweb.cc/bbs/C_Chat/M.1662880538.A.386 這一次拿來測彩奈 https://i.imgur.com/H7XS3YX.png

頭髮遮眼睛真的學不起來髮飾則微妙要學這個embedding個人測試過兩個分別是以stable diffusion原本repo為基礎的 https://github.com/lstein/stable-diffusion/blob/main/docs/features/TEXTUAL_INVER SION.md 和diffuser的 https://github.com/huggingface/diffusers/tree/main/examples/textual_inversion 學這個12GB Vram的話圖片大小用448x448才不會記憶體容量不足 Vram更多直接用原本的512x512就可以個人覺得diffuser的操作起來比較容易但每次重新複製整個模型很迷如果用diffuser的話產生的東西裡面會有會有一個.bin的檔案就是學到的embedding 至於用第一個好處是可以用tensorboard看當下進度而其中目前生成的圖片會存在log/..../images/train面可以大概判斷一下目前學的如何覺得ok的時候停掉跑的過程會直接產生一推.pt的檔案在checkpoints裡面之後就在webui開一個embeddings的資料夾把想要的.pt放進去如果沒意外你可以選最後一個 (embeddings.pt) 改一下名稱像是arona.pt 之後prompt直接輸入arona拿學到的embedding 如一開始的圖所示 (這裡用arona0) https://i.imgur.com/JmYKTSv.png

至於diffuser生成的.bin檔案把結尾改成.pt一樣同一個方法用 textual inversion因為不調模型只學embedding所以受限於模型參數本身沒辦法完全重現想要的結果想要更符合的圖片的話除了直接finetune還可以用dreambooth https://github.com/XavierXiao/dreambooth-stable-diffusion 比起finetune只需要少量圖片跑起來比textual inversion還快 (不到一小時) 缺點是訓練出來的模型沒有相容性一個觀念就一個模型而且因為調整個模型需要30G Vram 現階段幾乎只能用雲端服務租A6000 不過很便宜舉例來說一個人訓練的古拉模型花才幾百台幣可以得到以下成果 https://i.imgur.com/jYQA6gC.png

比起個人之前的文章很明顯更好的學到了特徵只是dreambooth學到的東西也不好控制常常prompt給錯就整個崩掉相較之下textual inversion得到的結果雖然比較差但壞掉時也是漸進式的下面的古拉自拍系列prompt也調很久 https://i.imgur.com/69dRvb7.png

開頭那張也是這個模型生的 4.圖片生成: 以其他圖片做基底篇 Image to Image webui功能一大堆天天更新有興趣的可以自己看這裡再介紹一個image2image用圖片當輸入作為參考就某個角度來說它這個implementation是用個很簡單的演算法效果差強人意但拿來做風格微調或者當作圖片構圖基底還算能用界面長這樣 https://i.imgur.com/fczYbl2.png

使用範例拿來把戀X或女X3dX的圖2d化像這張 (取自https://www.pixiv.net/artworks/85531604) https://i.imgur.com/47jljPp.png

https://i.imgur.com/XOA8Q5k.jpg

或是 (目前的模型仍然有生成四肢障礙 https://i.imgur.com/x7WxXHa.jpg

https://i.imgur.com/eMC89Qs.jpg

Denoising越大會離遠本圖片越遠因為會先加一堆噪音開始重新繪圖 (圖片生成原理細節: https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3 再貼幾個 (右3d 左2d化 https://i.imgur.com/dRBO1Qp.png

https://i.imgur.com/8Dvl4rZ.png

https://i.imgur.com/ReJK5Az.png

source: https://www.pixiv.net/artworks/87009158 https://www.pixiv.net/artworks/85178188 https://www.pixiv.net/artworks/85443189 當然像是lyroris那篇把2d真人化也可以當輸入是就是真實系3d cg 只能說效果很可怕基本上就是deepfake 然後目前雖然有支援inpainting也就是把缺失部分補足的功能但個人發現diffuser跟stable diffusion原本repo的演算法不一樣 webui應該是用後者然後兩個演算法感覺都沒到很好所以有興趣的人應該可以藉此水一篇paper (雖然應該一堆人會去水了 5.色圖上面那套用正確的模型下去做基本上可以生成各種色圖不過目前主要受限於資料品質以及clip embedding相關知識不足當姿勢或視角跑掉太多基本上幾乎生不出來日本的馬賽克規定也變相增加訓練難度使得關鍵部份常常效果不佳但各種調整還是可以有不錯的結果有興趣可以去 4chan h/hdg 看 (不過那裡也混了各種真實系的以下示意圖應該不會被桶吧? https://i.imgur.com/hcC4K9n.png

https://i.imgur.com/FCUWKY2.png

置底貼個彩奈換裝系列效果依舊差強人意 https://i.imgur.com/a8gffeN.jpg

更多資訊可以參考 https://wiki.installgentoo.com/wiki/Stable_Diffusion#Waifu_Diffusion 網路上有幾個discord也都可以加 (應該都是英文的 -- 北歐組一生推 https://i.imgur.com/ydMoryp.jpg

https://i.imgur.com/njHa0OA.jpg

https://i.imgur.com/KVrWmNb.jpg

https://i.imgur.com/leUc4jP.jpg

https://i.imgur.com/aWFuDE4.jpg

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.19.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1663637848.A.AA1.html

推

LeeXX

09/20 09:39, 3年前 , 1^F

09/20 09:39, 1^F

推

smart0eddie

09/20 09:39, 3年前 , 2^F

09/20 09:39, 2^F

→

bamama56

09/20 09:40, 3年前 , 3^F

09/20 09:40, 3^F

推

ataky

09/20 09:40, 3年前 , 4^F

09/20 09:40, 4^F

推

Aka2306012

09/20 09:40, 3年前 , 5^F

09/20 09:40, 5^F

推

hh123yaya

09/20 09:41, 3年前 , 6^F

09/20 09:41, 6^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:42:19 ※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:43:37

推

Political

09/20 09:43, 3年前 , 7^F

09/20 09:43, 7^F

※ 編輯: cybermeow (114.34.19.251 臺灣), 09/20/2022 09:50:48

推

billy791122

09/20 09:47, 3年前 , 8^F

09/20 09:47, 8^F

上面lewd diffusion就是完全在ACG r18圖訓練的真人的更是行之有年了 furry pony也都是有R18的

推

REDF

09/20 09:48, 3年前 , 9^F

09/20 09:48, 9^F

→

REDF

09/20 09:48, 3年前 , 10^F

09/20 09:48, 10^F

→

f1731025

09/20 09:49, 3年前 , 11^F

09/20 09:49, 11^F

推

MonDaNai

09/20 09:51, 3年前 , 12^F

09/20 09:51, 12^F

推

Koyomiiii

09/20 09:51, 3年前 , 13^F

09/20 09:51, 13^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:55:21

推

kkoejeo

09/20 09:57, 3年前 , 14^F

09/20 09:57, 14^F

推

goldfishert

09/20 09:57, 3年前 , 15^F

09/20 09:57, 15^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:59:05

→

roribuster

09/20 09:59, 3年前 , 16^F

09/20 09:59, 16^F

推

SetsunaOgiso

09/20 10:00, 3年前 , 17^F

09/20 10:00, 17^F

推

aiglas0209

09/20 10:05, 3年前 , 18^F

09/20 10:05, 18^F

推

DarkyIsCat

09/20 10:05, 3年前 , 19^F

09/20 10:05, 19^F

推

js850604

09/20 10:05, 3年前 , 20^F

09/20 10:05, 20^F

推

iwinlottery

09/20 10:05, 3年前 , 21^F

09/20 10:05, 21^F

推

HDDY

09/20 10:09, 3年前 , 22^F

09/20 10:09, 22^F

→

ARCHER2234

09/20 10:10, 3年前 , 23^F

09/20 10:10, 23^F

→

ARCHER2234

09/20 10:10, 3年前 , 24^F

09/20 10:10, 24^F

你安裝完成就是一鍵了或是請別人安裝好開給你用也是一鍵剩下就很多東西要調整自己想文字放什麼使用者介面倒是做很快開源來這個月每天都在飆剩下或是背後演算法要好之後有自然會有人寫介面

推

SunnyBrian

09/20 10:11, 3年前 , 25^F

09/20 10:11, 25^F

推

AdmiralAdudu

09/20 10:14, 3年前 , 26^F

09/20 10:14, 26^F

推

ImCasual

09/20 10:16, 3年前 , 27^F

09/20 10:16, 27^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:17:13

推

herbleng

09/20 10:17, 3年前 , 28^F

09/20 10:17, 28^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:18:00

推

CYL009

09/20 10:22, 3年前 , 29^F

09/20 10:22, 29^F

推

Tsozuo

09/20 10:23, 3年前 , 30^F

09/20 10:23, 30^F

因為還在開發階段五年後就不好說了 ※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:27:27 ※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:29:25

推

uohZemllac

09/20 10:29, 3年前 , 31^F

09/20 10:29, 31^F

推

ryo1008

09/20 10:30, 3年前 , 32^F

09/20 10:30, 32^F

推

newcsie68

09/20 10:30, 3年前 , 33^F

09/20 10:30, 33^F

推

likeyousmile

09/20 10:33, 3年前 , 34^F

09/20 10:33, 34^F

推

frankfipgd

09/20 10:39, 3年前 , 35^F

09/20 10:39, 35^F

推

AlianF

09/20 10:40, 3年前 , 36^F

09/20 10:40, 36^F

→

ARCHER2234

09/20 10:41, 3年前 , 37^F

09/20 10:41, 37^F

→

ARCHER2234

09/20 10:41, 3年前 , 38^F

09/20 10:41, 38^F

→

cybermeow

09/20 10:47, 3年前 , 39^F

09/20 10:47, 39^F

推

nyanpasu

09/20 11:13, 3年前 , 40^F

09/20 11:13, 40^F

推

qxpbyd

09/20 11:24, 3年前 , 41^F

09/20 11:24, 41^F

→

qxpbyd

09/20 11:25, 3年前 , 42^F

09/20 11:25, 42^F

我就用模型生成沒用upscaler欸 novel ai都不開源搞sfw吧zzzzz

推

tamynumber1

09/20 11:26, 3年前 , 43^F

09/20 11:26, 43^F

→

tamynumber1

09/20 11:26, 3年前 , 44^F

09/20 11:26, 44^F

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 11:37:13

推

longkiss0618

09/20 11:37, 3年前 , 45^F

09/20 11:37, 45^F

推

Koyomiiii

09/20 11:37, 3年前 , 46^F

09/20 11:37, 46^F

推

qxpbyd

09/20 11:48, 3年前 , 47^F

09/20 11:48, 47^F

→

qxpbyd

09/20 11:49, 3年前 , 48^F

09/20 11:49, 48^F

→

qxpbyd

09/20 11:50, 3年前 , 49^F

09/20 11:50, 49^F

→

qxpbyd

09/20 11:51, 3年前 , 50^F

09/20 11:51, 50^F

需要賺錢的確是現實上很麻煩的點理想上是走開源軟體那套做Open Source software as a service 而且老實講現在這個東西這麼多人搞實在不看好靠模型賺錢不如開源演算法模型趕快做平台 hugging face 也是幾乎都開源的市值也到了20億美金不知道他們商業模式怎麼樣訓練waifudiffusion的人說 but if they do make some high quality smut model and never open source it, i'm g oing to just train a clone of it and make it open source. 然後也不知道是受限於美國商業文化還怎樣全部都畫地自限做sfw 像是今天讓幻影社來做是不是就會完全不一樣明明nsfw也是很大的商機當然把這樣的模型用midjourney那套做也不合理雖然理想上是把nsfw模型開源給所有人用然而這背後確實也有很多的社會因素需要探討只是實在是很不爽很多公司什麼都商業機密那一套 ※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 12:05:33 ※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 12:18:14

推

nicehuman

09/20 12:48, 3年前 , 51^F

09/20 12:48, 51^F

→

fmp1234

09/20 12:51, 3年前 , 52^F

09/20 12:51, 52^F

推

harryzx0

09/20 13:11, 3年前 , 53^F

09/20 13:11, 53^F