PTT動漫區 / C_Chat (希洽)

Re: [問題] AI 風格怎麼了嗎？為什麼容易膩？

看板C_Chat (希洽)作者Satoman (沙陀曼)時間1年前 (2024/11/04 23:07)推噓71(71推 0噓 49→)

留言120則, 69人參與討論串5/6 (看更多)

※ 引述《lcomicer (冷水青蛙鍋)》之銘言： : 可能大多套用相同模型去跑是其一

推

SaberMyWifi

11/03 10:21,

11/03 10:21

推

uohZemllac

11/03 10:25,

11/03 10:25

→

uohZemllac

11/03 10:25,

11/03 10:25

其實和大家想的剛好相反，那些「看起來很膩」的AI圖其實才是許多不同的模型分別生出來的。而所謂「風格比較多變」、「不是預設畫風」的AI圖，生那些圖的人搞不好換模型的頻率還沒「看起來很膩」的多。首先要說明一件事，除非你用的是線上生成網站如midjourney，否則大家用的大多都是SD stable diffusion，或是其模型或技術本身的衍生產物。另外，AI沒有預設的畫風或模型。真的要講預設，如果你用的工具是最入門的automatic1111 webui懶人安裝包的話，他的確是會預設幫你下載一個模型叫SD15NewVAEpruned。但假設我想用這個模型生一個穿著洋裝的少女走在海邊的日式ACG風格圖片，那這個模型生出來的東西可能長這樣： https://iili.io/2xCWcNe.png

或這樣： https://iili.io/2xCW6JI.png

上下取決於你要用咒文式提詞或自然語言提詞，但結果都是不可名狀之物。這其實就是早期被認為能實用的圖片生成模型stable diffusion1.5。基本上，陽春版的stable diffusion1.5並沒有針對日式ACG風格訓練，因此生成不可名狀之物是注定的結果。第一個嘗試讓AI學習ACG畫風，模型基於SD訓練的是Waifu Diffusion，早期的WD生出來的圖片大概是長這樣： https://iili.io/2xCvzxI.png

另一方面，原本主打線上AI小說生成的網站novelai則是以SD為基底訓練，推出了在宅圖生成方面相當卓越的線上生圖服務。 novelai生成的圖片大概長這樣(有沒有開始膩了)： https://iili.io/2xCStln.png

novelai不知道是公司內部本身的愛好，還是基於市場策略，在當時主流都在研究真人圖片或照片的時候，他們主打宅圖這招算是確立了市場獨特性。至於他們成功的秘訣其實也很粗暴簡單，就是直接把網路上最大的宅圖盜圖網站當訓練集給AI學習。而無心插柳柳橙汁，他們在訓練時把網站的分類tag也一起讓AI學了，這讓novelai的模型對於標籤式的提詞有相當的理解能力，取代自然語言的「咒文」也開始流行。 (附帶一提，最新的Flux模型主打自然語言，但是那個自然語言有時候寫起來更像咒文 ==) 如果你提詞打得夠全，那它甚至能生出某些在訓練集中佔比較高的熱門角色，像這樣： https://iili.io/2xCs3Is.png

這件事的爭議其實很大，畢竟它訓練集來源是盜圖網站，而它也沒經過對方允許，等於是盜上加盜。然後呢，相當戲劇性的，novelai的模型某一天就突然被人幹出來了。這個外洩的模型一般通稱為NAI，很快就被各路人馬抓來進行各種調整訓練。事實上，前年至去年的ACG風格的AI圖可能有九成以上都是基於NAI的衍伸產物。再加上微調模型Lora解決了AI無法生成冷門和新角色的短版， AI群魔亂舞的時代時代也隨之開啟。這時代的模型生成的圖片大致上長這樣，像是熱門模型hassaku： https://iili.io/2xCyl3b.png

(這張圖應該最膩，沒錯吧？) 同樣也很熱門，眩光效果突出的Cetus-Mix則是長這樣： https://iili.io/2xnd6b4.png

(應該也很膩吧，這模型是當時很多推特AI仔的首選) 又或是我認為最傑出，擅長把背景搞得異常豐富(雜亂)的agelesnate： https://iili.io/2xn95RR.png

(這張應該沒那麼膩，因為這模型比較沒有名氣) 各位仔細瞧的話應該會發現，這三張圖片乍看之下畫風不同，但是其實都可以看出來是原始NAI的衍伸產物。 SD1.5由於設備需求較低，當時的AI仔社群比現在活躍許多，很多人用自家顯卡，以NAI為底搞出各種不同的混合模型。但由於原始模型SD1.5的上限，當時的AI圖除非加上風格強烈的畫風lora，否則都很難完全脫出NAI的既成風格。所以那個時代的圖片大家看得最膩，但實際上模型種類卻是最多的。至今SD1.5還是有不少使用者，因為它需求的設備較低，能用4GB的顯存勉強跑。另外也有不少人是覺得SD1.5選擇多、變化多，或是單純喜歡這種風格因此留在1.5時代。下個時代則是stable diffusion XL的時代，簡稱SDXL。 stable diffusion的母公司在stable diffusion 2遭遇了滑鐵盧等級的慘敗， SD2相比SD1.5並沒有顯著的成果提升，而且還刪除了色情圖片的生成能力。沒有色情的開源模型價值可想而知的是低到不行，結果當然是直接被大多數AI仔蛋雕。雖然他們有搞個SD2.1補救，但為時已晚。之後推出的SDXL則是一開始沒在AI宅圖圈引起太多波瀾，但是數個月後隨後基於SDXL調整訓練的模型則是徹底改變了AI仔的生態。第一個是Pony，這也算是一個無心插柳柳橙汁的模型。如同名稱，Pony主要的學習目標是彩虹小馬，但是最終的成果是則是一個泛用性高，在各方面都有及格水準的模型。原始的Pony生成的結果較接近歐美審美，最熱門的衍伸模型AutismMix生成結果則是這樣： https://iili.io/2xord8X.png

這結果一路看下來應該很多人會覺得人物立像沒有進度，可能還退步了。是的，Pony系的模型的缺點不少。最明顯的就是整體生成結果偏暗，用色偏髒。另外由於訓練流程中出錯，pony在生圖時必須打上審美分級標籤作為提詞和負面提詞，這點也讓部分使用者頗為詬病。最麻煩的一點則是Pony的Lora必須為它專屬，不僅是以前SD1.5不通用，連其他以SDXL為基底的LORA也無法完全適用於Pony模型。但是以下這張圖可以清楚地告知為何缺點雖多，它仍成為目前最流行的開源宅圖模型。 https://iili.io/2xobwFa.png

對，Pony系模型對於提詞的理解遠高於過往的SD1.5、NAI模型。特別是在「多人互動」方面，坦白講就是：「色圖」。基於SDXL的Pony本身對於提詞的理解力遠高於SD1.5數倍，像上面那張圖片在SD1.5時代抽了亂數幾百張，掛了好幾個外掛尿袋，用inpaint塗塗抹抹了大半天可能都不一定生不出來。但是在Pony時代，這類圖片卻只要不到一分鐘的時間輸入提詞，並且調整一下分區外掛就能快速生成，節省的時間可能有數百倍之多。這張綾波零明日香我甚至沒有抽亂數，是直接拿第一張生成的圖片。 Pony出現的時機也和最大的AI模型網站civitai開始線上生成服務相應， civitai對於Pony的推廣在當時也算是不遺餘力，促成了現今Pony一統天下的局面。另外一個熱門模型則是Animagine XL，其生成的圖片如下： https://iili.io/2xzlDwg.png

平心而論，個人覺得Animagine XL生的圖其實比pony好看，它的Lora能與其他SDXL模型互通也是其優勢。 Animagine XL和pony孰優孰劣其實一直是AI仔的熱門論戰。不少幫Animagine抱屈的人會覺得它只是敗在Pony的色圖攻勢，反方也有人認為Pony並不是真的只靠色圖，而是單純在理解提詞方面勝出。總之，這個模型也是有其愛好者。雖然在色圖方面較為不足，但是在非多人運動圖片，特別是單人角色圖方面有其優勢所在。那就回到開頭了，那些「風格比較多變」的AI仔用的模型最有可能是什麼呢？是Pony還是Animagine XL？答案是：復仇歸來的novelai的SDXL新模型novelai3，俗稱NAI3。平心而論，在色圖方面NAI3仍是略遜Pony一籌，但是它有自己的三個獨特優勢： 1.認識的角色多且完成度高，特別是當時的熱門手遊角色如：檔案、馬娘或原神。 2.認識的畫師畫風多且再現率極高。 3.擅長把以上兩者混合。以檔案角色舉例來講，大概就這樣： https://iili.io/2xTBG0G.png

然後1+2玩久了之後，就有人開始嘗試2+2，也就是將不同的畫師風格混合，甚至是1+2+2。一樣以檔案角色舉例來講，大概就這樣： https://iili.io/2xTNGt4.png

或這樣： https://iili.io/2xTSnSI.png

又或者這樣： https://iili.io/2xTPTD7.png

是的，大部分的AI仔達成「風格比較多變」這個前提其實不是他們自己有練模型，也不是他們經常換模型。而是他們使用的模型本身就能以提詞去拼、去疊、去組合、去接龍，以不同畫師的畫風組合達成風格多變，甚至是「沒有AI味的效果」。要達成這種效果，其實也就是在提詞寫上角色名字+畫師名字+畫師名字一直往下疊。單以圖片生成來講，這有很難嗎？一開始接觸如果你平常沒在追畫師可能確實有點難度，但是熟了，或者從別人那邊要到提詞，單純疊畫師也是幾分鐘內的事情。以現在來講，由於SD1.5和Pony都是以清潔的線條與均勻上色的風格為主。所以AI仔在疊畫師通常會選擇那些線條筆觸強烈(或者相反沒什麼線條)，上色色塊明顯，但是臉部特色又沒有太獨特的畫風為主。甚至有些人為了加強筆觸，會把以前通常放在負面提詞的sketch(素描)拉到正面提詞。最衰，最常被拿來疊的大概就以下幾位： TrNyteal(我感覺幾乎每張都有他 ==)、藤ちょこ、にんげんまめ、rei_17、DSマイル、ヒトこもる等等。然後疊完可能還會再追加幾個畫風比較強烈的來修補。例如覺得圖片太平沒立體和光影就疊個as109、不夠美少女畫風就疊個YD試試、想要偏寫實一點就疊個wlop、想要特別一點的風格就加上ratatatat74等等。對了，有些畫師的名字建議別在公開場合估狗，社會性死亡機率很高 == 所以真的是風格多變就是所謂的「用心的咒術師」嗎，也不一定，在電腦前的他其實搞不好其實只是一直在玩畫風疊疊樂，然後拉長圖片放出時間而已。甚至我都在懷疑某些說自己有加筆的根本沒加，不然就是只修最容易看出破綻的眼睛和手。至於之後嗎？ novelai我記得很久以前就說在弄NAI4了，只不過目前還沒消息。開源部分，其實Kohaku(這位是台灣高材生)在今年初弄出來的模型Kohaku-XL系列，在角色認知和疊畫風方面已經可以有和NAI3互角的本錢。只可惜他本人似乎沒有足夠的設備($$)提供算力讓模型精益求精。我手上的Kohaku-XL Epsilon用疊疊樂生圖的結果大概長這樣： https://iili.io/2xAUJJp.png

前月推出的開源模型Illustrious XL則是以Kohaku-XL為基礎，而它本身和衍伸的各模型實質上已經在各方面超越了Pony和NAI3。寫到這邊我懶得再切模型讀取了，直接貼今天和前幾天測試的疊疊樂 == https://iili.io/2xAtcJe.png

https://iili.io/2xREcml.png

https://iili.io/2xAtAs2.png

https://iili.io/2xAtzbf.png

https://iili.io/2xAt5fS.png

https://iili.io/2xAtuWl.png

(角色方面除了小孤獨其它有套角色Lora) 這些疊疊類有些是我自己亂湊，有些是照抄別人的，總之大部分脫離不開上面的提及的可憐畫師。雖然不是同一個模型生的圖，但是原理基本上大同小異，也都是Illustrious XL的衍伸產物。我以前說過Illustrious XL在色圖方面沒Pony強，但過了一個月一些優秀的微調模型問世之後在色圖上Illustrious XL也確實超越了Pony。至於為什麼現在Illustrious XL還沒有非常熱門？還是一堆人留在Pony？真正的原因大概是civitai正在全力推廣那個又肥又貴，寫自然語言能寫到比標籤提詞更像咒文的flux吧 == 回標題，那些AI圖看不膩？對AI仔我來講，只要是願意公布自己的生成提詞和參數的圖片，不管它是什麼風格什麼模型，我看再多都不會膩。而那些想賺熱度，對生成細節和技術一個字不提，只寫個「AI生成」、「AI加筆」的推特AI仔的圖倒是真的膩。 (因為用了蘿莉相關提詞怕被搞的不公布不算，這點我可以理解 ==) 甚至還有那種明明就自己加了一堆尿袋外掛，提詞寫得天花亂墜去千方百計去引導AI，尿袋裡的尿都快滿出來了，卻硬要說成「AI想的」那種更是膩上加膩 == 至於那種明明是AI圖卻不標註的也沒啥好講，就是想騙熱度而已 == 啊對了，別問我為什麼不公布參數和提詞。我沒寫出來是因為這個圖床有保留PNG INFO，想要的可以直接自取 == -- (と・てノ) 翼龍欸 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.128.113 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1730732828.A.70C.html

推

memoriespass

11/04 23:17, 1年前 , 1^F

11/04 23:17, 1^F

→

memoriespass

11/04 23:17, 1年前 , 2^F

11/04 23:17, 2^F

flux就不太支援所謂的咒語，要是要把自然語言寫成真正的咒語 == 而且因為這點導致Lora非常不好弄 ==

推

x2159679

11/04 23:22, 1年前 , 3^F

11/04 23:22, 3^F

→

andyleeyuan

11/04 23:24, 1年前 , 4^F

11/04 23:24, 4^F

我忘了有沒有玩過了，之前硬碟要報了清了一堆平常沒在用的模型 ==

推

uohZemllac

11/04 23:25, 1年前 , 5^F

11/04 23:25, 5^F

※ 編輯: Satoman (1.163.128.113 臺灣), 11/04/2024 23:27:49

推

andy0481

11/04 23:28, 1年前 , 6^F

11/04 23:28, 6^F

SDXL時代的模型和SD1.5時代的提升是真的差很多，特別是色圖，跑得動建議還是換換看會發現新大陸。 ※ 編輯: Satoman (1.163.128.113 臺灣), 11/04/2024 23:30:52

推

tchaikov1812

11/04 23:32, 1年前 , 7^F

11/04 23:32, 7^F

→

tchaikov1812

11/04 23:32, 1年前 , 8^F

11/04 23:32, 8^F

→

tchaikov1812

11/04 23:32, 1年前 , 9^F

11/04 23:32, 9^F

推

twosheep0603

11/04 23:32, 1年前 , 10^F

11/04 23:32, 10^F

→

twosheep0603

11/04 23:33, 1年前 , 11^F

11/04 23:33, 11^F

推

aria0520

11/04 23:37, 1年前 , 12^F

11/04 23:37, 12^F

→

aria0520

11/04 23:38, 1年前 , 13^F

11/04 23:38, 13^F

→

Satoman

11/04 23:38, 1年前 , 14^F

11/04 23:38, 14^F

→

twosheep0603

11/04 23:39, 1年前 , 15^F

11/04 23:39, 15^F

→

Satoman

11/04 23:39, 1年前 , 16^F

11/04 23:39, 16^F

→

Satoman

11/04 23:39, 1年前 , 17^F

11/04 23:39, 17^F

→

clothg34569

11/04 23:39, 1年前 , 18^F

11/04 23:39, 18^F

→

Satoman

11/04 23:39, 1年前 , 19^F

11/04 23:39, 19^F

→

aria0520

11/04 23:40, 1年前 , 20^F

11/04 23:40, 20^F

→

Satoman

11/04 23:40, 1年前 , 21^F

11/04 23:40, 21^F

→

Satoman

11/04 23:40, 1年前 , 22^F

11/04 23:40, 22^F

推

x2159679

11/04 23:45, 1年前 , 23^F

11/04 23:45, 23^F

→

x2159679

11/04 23:45, 1年前 , 24^F

11/04 23:45, 24^F

推

zxcmoney

11/04 23:51, 1年前 , 25^F

11/04 23:51, 25^F

推

karta018

11/04 23:58, 1年前 , 26^F

11/04 23:58, 26^F

推

x2159679

11/05 00:09, 1年前 , 27^F

11/05 00:09, 27^F

那個LORA只用了11張圖，可能但不一定。

→

inte629l

11/05 00:10, 1年前 , 28^F

11/05 00:10, 28^F

SDXL時代的問題就是lora互通性通常不好，很麻煩 ==

推

mantouman

11/05 00:12, 1年前 , 29^F

11/05 00:12, 29^F

還有 57 則推文

還有 10 段內文

推

ETTom

11/05 08:18, 1年前 , 87^F

11/05 08:18, 87^F

推

denny8437

11/05 08:20, 1年前 , 88^F

11/05 08:20, 88^F

推

qd6590

11/05 08:21, 1年前 , 89^F

11/05 08:21, 89^F

推

protoss97

11/05 08:25, 1年前 , 90^F

11/05 08:25, 90^F

推

tiger870316

11/05 08:29, 1年前 , 91^F

11/05 08:29, 91^F

推

joeii0126

11/05 08:30, 1年前 , 92^F

11/05 08:30, 92^F

推

longkiss0618

11/05 08:35, 1年前 , 93^F

11/05 08:35, 93^F

推

jafifshn4

11/05 08:36, 1年前 , 94^F

11/05 08:36, 94^F

推

naya7415963

11/05 08:43, 1年前 , 95^F

11/05 08:43, 95^F

→

naya7415963

11/05 08:43, 1年前 , 96^F

11/05 08:43, 96^F

→

sudekoma

11/05 08:46, 1年前 , 97^F

11/05 08:46, 97^F

→

sudekoma

11/05 08:47, 1年前 , 98^F

11/05 08:47, 98^F

→

sudekoma

11/05 08:48, 1年前 , 99^F

11/05 08:48, 99^F

現在是沒鎖狀態，除非你是那種圖沒放上網路只賣本本的，畢竟現在掃圖仔其實變少很多。比起防AI平台或浮水印，最好防AI爬蟲抓圖的方法其實是不要上傳768*768以上的圖片。

推

Dayton

11/05 09:36, 1年前 , 100^F

11/05 09:36, 100^F

推

nelson220011

11/05 09:48, 1年前 , 101^F

11/05 09:48, 101^F

推

EvilKnight

11/05 10:10, 1年前 , 102^F

11/05 10:10, 102^F

※ 編輯: Satoman (1.163.154.180 臺灣), 11/05/2024 10:15:57

推

GeorgeBear

11/05 10:27, 1年前 , 103^F

11/05 10:27, 103^F

推

tom50512

11/05 10:35, 1年前 , 104^F

11/05 10:35, 104^F

推

waynemayday

11/05 10:47, 1年前 , 105^F

11/05 10:47, 105^F

推

kuochuwon

11/05 10:53, 1年前 , 106^F

11/05 10:53, 106^F

推

salamender

11/05 10:54, 1年前 , 107^F

11/05 10:54, 107^F

→

bluejark

11/05 12:40, 1年前 , 108^F

11/05 12:40, 108^F

我不用補啊倒是你這種用嘴玩AI的什麼時候要不拼圖搞個模型讓我瞧瞧？

推

owlman

11/05 13:01, 1年前 , 109^F

11/05 13:01, 109^F

對啊，可是pony早期的圖用色真的很髒 == 當時讓我猶疑了超久不知道是要停在1.5還是換Pony或是等SD3測風向 == ※ 編輯: Satoman (1.163.154.180 臺灣), 11/05/2024 13:13:32

推

wsad66

11/05 15:15, 1年前 , 110^F

11/05 15:15, 110^F

以基礎生圖(單純提詞生圖)來講其實都相通的，你會一個等於其他都會了。差別只是要下載讀取安裝的檔案不一樣，pony也只是要多複製貼上幾個字而已。你想玩玩和生色圖可以先試試Pony，畢竟相關資源多而且應用方向大。想疊畫師玩不同風格變化就用Illustrious或他的衍伸像noobai或Illustrious SmoothFT。 ※ 編輯: Satoman (1.163.154.180 臺灣), 11/05/2024 15:39:02

推

stillsato

11/05 17:01, 1年前 , 111^F

11/05 17:01, 111^F

推

NicoNeco

11/05 18:47, 1年前 , 112^F

11/05 18:47, 112^F

推

DarkerDuck

11/05 19:55, 1年前 , 113^F

11/05 19:55, 113^F