Re: [問題] AI 風格怎麼了嗎?為什麼容易膩?

看板C_Chat (希洽)作者 (沙陀曼)時間12小時前 (2024/11/04 23:07), 9小時前編輯推噓55(55044)
留言99則, 52人參與, 2小時前最新討論串5/6 (看更多)
※ 引述《lcomicer (冷水青蛙鍋)》之銘言: : 可能大多套用相同模型去跑是其一

11/03 10:21,
新手調的AI幾乎都預設出來的不耐看,高手調的就很棒
11/03 10:21

11/03 10:25,
因為有在認真專研做出變化的的ai繪師少之又少
11/03 10:25

11/03 10:25,
一堆一看就是直接用sd洗版的能不膩ㄇ
11/03 10:25
其實和大家想的剛好相反, 那些「看起來很膩」的AI圖其實才是許多不同的模型分別生出來的。 而所謂「風格比較多變」、「不是預設畫風」的AI圖, 生那些圖的人搞不好換模型的頻率還沒「看起來很膩」的多。 首先要說明一件事,除非你用的是線上生成網站如midjourney, 否則大家用的大多都是SD stable diffusion,或是其模型或技術本身的衍生產物。 另外,AI沒有預設的畫風或模型。 真的要講預設,如果你用的工具是最入門的automatic1111 webui懶人安裝包的話, 他的確是會預設幫你下載一個模型叫SD15NewVAEpruned。 但假設我想用這個模型生一個穿著洋裝的少女走在海邊的日式ACG風格圖片, 那這個模型生出來的東西可能長這樣: https://iili.io/2xCWcNe.png
或這樣: https://iili.io/2xCW6JI.png
上下取決於你要用咒文式提詞或自然語言提詞,但結果都是不可名狀之物。 這其實就是早期被認為能實用的圖片生成模型stable diffusion1.5。 基本上,陽春版的stable diffusion1.5並沒有針對日式ACG風格訓練, 因此生成不可名狀之物是注定的結果。 第一個嘗試讓AI學習ACG畫風,模型基於SD訓練的是Waifu Diffusion, 早期的WD生出來的圖片大概是長這樣: https://iili.io/2xCvzxI.png
另一方面,原本主打線上AI小說生成的網站novelai則是以SD為基底訓練, 推出了在宅圖生成方面相當卓越的線上生圖服務。 novelai生成的圖片大概長這樣(有沒有開始膩了)https://iili.io/2xCStln.png
novelai不知道是公司內部本身的愛好,還是基於市場策略, 在當時主流都在研究真人圖片或照片的時候,他們主打宅圖這招算是確立了市場獨特性。 至於他們成功的秘訣其實也很粗暴簡單, 就是直接把網路上最大的宅圖盜圖網站當訓練集給AI學習。 而無心插柳柳橙汁,他們在訓練時把網站的分類tag也一起讓AI學了, 這讓novelai的模型對於標籤式的提詞有相當的理解能力, 取代自然語言的「咒文」也開始流行。 (附帶一提,最新的Flux模型主打自然語言,但是那個自然語言有時候寫起來更像咒文 ==) 如果你提詞打得夠全,那它甚至能生出某些在訓練集中佔比較高的熱門角色,像這樣: https://iili.io/2xCs3Is.png
這件事的爭議其實很大,畢竟它訓練集來源是盜圖網站,而它也沒經過對方允許, 等於是盜上加盜。 然後呢,相當戲劇性的,novelai的模型某一天就突然被人幹出來了。 這個外洩的模型一般通稱為NAI,很快就被各路人馬抓來進行各種調整訓練。 事實上,前年至去年的ACG風格的AI圖可能有九成以上都是基於NAI的衍伸產物。 再加上微調模型Lora解決了AI無法生成冷門和新角色的短版, AI群魔亂舞的時代時代也隨之開啟。 這時代的模型生成的圖片大致上長這樣,像是熱門模型hassakuhttps://iili.io/2xCyl3b.png
(這張圖應該最膩,沒錯吧?) 同樣也很熱門,眩光效果突出的Cetus-Mix則是長這樣: https://iili.io/2xnd6b4.png
(應該也很膩吧,這模型是當時很多推特AI仔的首選) 又或是我認為最傑出,擅長把背景搞得異常豐富(雜亂)的agelesnatehttps://iili.io/2xn95RR.png
(這張應該沒那麼膩,因為這模型比較沒有名氣) 各位仔細瞧的話應該會發現,這三張圖片乍看之下畫風不同, 但是其實都可以看出來是原始NAI的衍伸產物。 SD1.5由於設備需求較低,當時的AI仔社群比現在活躍許多, 很多人用自家顯卡,以NAI為底搞出各種不同的混合模型。 但由於原始模型SD1.5的上限,當時的AI圖除非加上風格強烈的畫風lora, 否則都很難完全脫出NAI的既成風格。 所以那個時代的圖片大家看得最膩,但實際上模型種類卻是最多的。 至今SD1.5還是有不少使用者,因為它需求的設備較低,能用4GB的顯存勉強跑。 另外也有不少人是覺得SD1.5選擇多、變化多, 或是單純喜歡這種風格因此留在1.5時代。 下個時代則是stable diffusion XL的時代,簡稱SDXL。 stable diffusion的母公司在stable diffusion 2遭遇了滑鐵盧等級的慘敗, SD2相比SD1.5並沒有顯著的成果提升,而且還刪除了色情圖片的生成能力。 沒有色情的開源模型價值可想而知的是低到不行,結果當然是直接被大多數AI仔蛋雕。 雖然他們有搞個SD2.1補救,但為時已晚。 之後推出的SDXL則是一開始沒在AI宅圖圈引起太多波瀾, 但是數個月後隨後基於SDXL調整訓練的模型則是徹底改變了AI仔的生態。 第一個是Pony,這也算是一個無心插柳柳橙汁的模型。 如同名稱,Pony主要的學習目標是彩虹小馬, 但是最終的成果是則是一個泛用性高,在各方面都有及格水準的模型。 原始的Pony生成的結果較接近歐美審美,最熱門的衍伸模型AutismMix生成結果則是這樣: https://iili.io/2xord8X.png
這結果一路看下來應該很多人會覺得人物立像沒有進度,可能還退步了。 是的,Pony系的模型的缺點不少。 最明顯的就是整體生成結果偏暗,用色偏髒。 另外由於訓練流程中出錯,pony在生圖時必須打上審美分級標籤作為提詞和負面提詞, 這點也讓部分使用者頗為詬病。 最麻煩的一點則是Pony的Lora必須為它專屬,不僅是以前SD1.5不通用, 連其他以SDXL為基底的LORA也無法完全適用於Pony模型。 但是以下這張圖可以清楚地告知為何缺點雖多,它仍成為目前最流行的開源宅圖模型。 https://iili.io/2xobwFa.png
對,Pony系模型對於提詞的理解遠高於過往的SD1.5、NAI模型。 特別是在「多人互動」方面,坦白講就是:「色圖」。 基於SDXL的Pony本身對於提詞的理解力遠高於SD1.5數倍, 像上面那張圖片在SD1.5時代抽了亂數幾百張,掛了好幾個外掛尿袋, 用inpaint塗塗抹抹了大半天可能都不一定生不出來。 但是在Pony時代,這類圖片卻只要不到一分鐘的時間輸入提詞, 並且調整一下分區外掛就能快速生成,節省的時間可能有數百倍之多。 這張綾波零明日香我甚至沒有抽亂數,是直接拿第一張生成的圖片。 Pony出現的時機也和最大的AI模型網站civitai開始線上生成服務相應, civitai對於Pony的推廣在當時也算是不遺餘力,促成了現今Pony一統天下的局面。 另外一個熱門模型則是Animagine XL,其生成的圖片如下: https://iili.io/2xzlDwg.png
平心而論,個人覺得Animagine XL生的圖其實比pony好看, 它的Lora能與其他SDXL模型互通也是其優勢。 Animagine XL和pony孰優孰劣其實一直是AI仔的熱門論戰。 不少幫Animagine抱屈的人會覺得它只是敗在Pony的色圖攻勢, 反方也有人認為Pony並不是真的只靠色圖,而是單純在理解提詞方面勝出。 總之,這個模型也是有其愛好者。 雖然在色圖方面較為不足,但是在非多人運動圖片,特別是單人角色圖方面有其優勢所在。 那就回到開頭了,那些「風格比較多變」的AI仔用的模型最有可能是什麼呢? 是Pony還是Animagine XL? 答案是:復仇歸來的novelai的SDXL新模型novelai3,俗稱NAI3。 平心而論,在色圖方面NAI3仍是略遜Pony一籌,但是它有自己的三個獨特優勢: 1.認識的角色多且完成度高,特別是當時的熱門手遊角色如:檔案、馬娘或原神。 2.認識的畫師畫風多且再現率極高。 3.擅長把以上兩者混合。 以檔案角色舉例來講,大概就這樣: https://iili.io/2xTBG0G.png
然後1+2玩久了之後,就有人開始嘗試2+2,也就是將不同的畫師風格混合, 甚至是1+2+2。 一樣以檔案角色舉例來講,大概就這樣: https://iili.io/2xTNGt4.png
或這樣: https://iili.io/2xTSnSI.png
又或者這樣: https://iili.io/2xTPTD7.png
是的,大部分的AI仔達成「風格比較多變」這個前提其實不是他們自己有練模型, 也不是他們經常換模型。 而是他們使用的模型本身就能以提詞去拼、去疊、去組合、去接龍, 以不同畫師的畫風組合達成風格多變,甚至是「沒有AI味的效果」。 要達成這種效果,其實也就是在提詞寫上角色名字+畫師名字+畫師名字一直往下疊。 單以圖片生成來講,這有很難嗎? 一開始接觸如果你平常沒在追畫師可能確實有點難度, 但是熟了,或者從別人那邊要到提詞,單純疊畫師也是幾分鐘內的事情。 以現在來講,由於SD1.5和Pony都是以清潔的線條與均勻上色的風格為主。 所以AI仔在疊畫師通常會選擇那些線條筆觸強烈(或者相反沒什麼線條), 上色色塊明顯,但是臉部特色又沒有太獨特的畫風為主。 甚至有些人為了加強筆觸,會把以前通常放在負面提詞的sketch(素描)拉到正面提詞。 最衰,最常被拿來疊的大概就以下幾位: TrNyteal(我感覺幾乎每張都有他 ==)、 藤ちょこ、にんげんまめ、rei_17、DSマイル、ヒトこもる等等。 然後疊完可能還會再追加幾個畫風比較強烈的來修補。 例如覺得圖片太平沒立體和光影就疊個as109、 不夠美少女畫風就疊個YD試試、想要偏寫實一點就疊個wlop、 想要特別一點的風格就加上ratatatat74等等。 對了,有些畫師的名字建議別在公開場合估狗,社會性死亡機率很高 == 所以真的是風格多變就是所謂的「用心的咒術師」嗎,也不一定, 在電腦前的他其實搞不好其實只是一直在玩畫風疊疊樂,然後拉長圖片放出時間而已。 甚至我都在懷疑某些說自己有加筆的根本沒加, 不然就是只修最容易看出破綻的眼睛和手。 至於之後嗎? novelai我記得很久以前就說在弄NAI4了,只不過目前還沒消息。 開源部分, 其實Kohaku(這位是台灣高材生)在今年初弄出來的模型Kohaku-XL系列, 在角色認知和疊畫風方面已經可以有和NAI3互角的本錢。 只可惜他本人似乎沒有足夠的設備($$)提供算力讓模型精益求精。 我手上的Kohaku-XL Epsilon用疊疊樂生圖的結果大概長這樣: https://iili.io/2xAUJJp.png
前月推出的開源模型Illustrious XL則是以Kohaku-XL為基礎, 而它本身和衍伸的各模型實質上已經在各方面超越了Pony和NAI3。 寫到這邊我懶得再切模型讀取了,直接貼今天和前幾天測試的疊疊樂 == https://iili.io/2xAtcJe.png
https://iili.io/2xREcml.png
https://iili.io/2xAtAs2.png
https://iili.io/2xAtzbf.png
https://iili.io/2xAt5fS.png
https://iili.io/2xAtuWl.png
(角色方面除了小孤獨其它有套角色Lora) 這些疊疊類有些是我自己亂湊,有些是照抄別人的, 總之大部分脫離不開上面的提及的可憐畫師。 雖然不是同一個模型生的圖,但是原理基本上大同小異, 也都是Illustrious XL的衍伸產物。 我以前說過Illustrious XL在色圖方面沒Pony強, 但過了一個月一些優秀的微調模型問世之後在色圖上Illustrious XL也確實超越了Pony。 至於為什麼現在Illustrious XL還沒有非常熱門?還是一堆人留在Pony? 真正的原因大概是civitai正在全力推廣那個又肥又貴, 寫自然語言能寫到比標籤提詞更像咒文的flux吧 == 回標題,那些AI圖看不膩? 對AI仔我來講, 只要是願意公布自己的生成提詞和參數的圖片,不管它是什麼風格什麼模型, 我看再多都不會膩。 而那些想賺熱度,對生成細節和技術一個字不提, 只寫個「AI生成」、「AI加筆」的推特AI仔的圖倒是真的膩。 (因為用了蘿莉相關提詞怕被搞的不公布不算,這點我可以理解 ==) 甚至還有那種明明就自己加了一堆尿袋外掛,提詞寫得天花亂墜去千方百計去引導AI, 尿袋裡的尿都快滿出來了,卻硬要說成「AI想的」那種更是膩上加膩 == 至於那種明明是AI圖卻不標註的也沒啥好講,就是想騙熱度而已 == 啊對了,別問我為什麼不公布參數和提詞。 我沒寫出來是因為這個圖床有保留PNG INFO,想要的可以直接自取 == -- (と・てノ) 翼龍欸 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.128.113 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1730732828.A.70C.html

11/04 23:17, 12小時前 , 1F
感謝指引,之前只玩過pony和an imagine,發展到flu
11/04 23:17, 1F

11/04 23:17, 12小時前 , 2F
x後反而不會玩了
11/04 23:17, 2F
flux就不太支援所謂的咒語,要是要把自然語言寫成真正的咒語 == 而且因為這點導致Lora非常不好弄 ==

11/04 23:22, 12小時前 , 3F
我原本在那串還在想版主怎麼還沒出現(′・ω・‵)
11/04 23:22, 3F

11/04 23:24, 11小時前 , 4F
可以玩玩看Kohaku-XL Zeta
11/04 23:24, 4F
我忘了有沒有玩過了,之前硬碟要報了清了一堆平常沒在用的模型 ==

11/04 23:25, 11小時前 , 5F
推解釋
11/04 23:25, 5F
※ 編輯: Satoman (1.163.128.113 臺灣), 11/04/2024 23:27:49

11/04 23:28, 11小時前 , 6F
我覺得單純就是 沒變強太多 那就懶得學新的 就繼續用==
11/04 23:28, 6F
SDXL時代的模型和SD1.5時代的提升是真的差很多,特別是色圖, 跑得動建議還是換換看會發現新大陸。 ※ 編輯: Satoman (1.163.128.113 臺灣), 11/04/2024 23:30:52

11/04 23:32, 11小時前 , 7F
nai3真是好用的可怕,我是從Animagine XL跳槽到nai
11/04 23:32, 7F

11/04 23:32, 11小時前 , 8F
3的,簡簡單單就能生出好看又自然的圖,唯一可惜的
11/04 23:32, 8F

11/04 23:32, 11小時前 , 9F
點是新一點角色不能生成
11/04 23:32, 9F

11/04 23:32, 11小時前 , 10F
Pony Animagine Illustrious算是現在AI色圖三國鼎立
11/04 23:32, 10F

11/04 23:33, 11小時前 , 11F
不過最近有個NoobAI XL在預熱 不知道你有沒有興趣
11/04 23:33, 11F

11/04 23:37, 11小時前 , 12F
其實某種程度上的倖存者偏差 看不出來是AI圖的就不會被
11/04 23:37, 12F

11/04 23:38, 11小時前 , 13F
統計在AI圖的審美內
11/04 23:38, 13F

11/04 23:38, 11小時前 , 14F
NoobAI其實就Illustrious的再衍伸
11/04 23:38, 14F

11/04 23:39, 11小時前 , 15F
那看來就是精修版了(
11/04 23:39, 15F

11/04 23:39, 11小時前 , 16F
我測試過,Illustrious的Lora可以用在NoobAI,但是反過來
11/04 23:39, 16F

11/04 23:39, 11小時前 , 17F
效果卻會下降
11/04 23:39, 17F

11/04 23:39, 11小時前 , 18F
Noob是IL延伸的 目前Noob都是用IL底模的Lora
11/04 23:39, 18F

11/04 23:39, 11小時前 , 19F
上面有幾張圖應該就是用Noob生的,但是我忘了是哪幾張 ==
11/04 23:39, 19F

11/04 23:40, 11小時前 , 20F
當底特律變人的主角拔下藍圈後 就沒人知道他是機器人了
11/04 23:40, 20F

11/04 23:40, 11小時前 , 21F
而且NOOB目前三個版本結果差很大,幾乎可以算不同的模型
11/04 23:40, 21F

11/04 23:40, 11小時前 , 22F
了 ==
11/04 23:40, 22F

11/04 23:45, 11小時前 , 23F
話說老八那張用google找圖都是跑一堆跟老八沒關係的AI圖
11/04 23:45, 23F

11/04 23:45, 11小時前 , 24F
耶 真神奇......
11/04 23:45, 24F

11/04 23:51, 11小時前 , 25F
推解釋
11/04 23:51, 25F

11/04 23:58, 11小時前 , 26F
好詳細推
11/04 23:58, 26F

11/05 00:09, 11小時前 , 27F
話說最下面那張luce是只靠原設定圖就能生出來的嗎
11/05 00:09, 27F
那個LORA只用了11張圖,可能但不一定。

11/05 00:10, 11小時前 , 28F
難怪我在Animagine上練的LoRA套到Pony就超怪..
11/05 00:10, 28F
SDXL時代的問題就是lora互通性通常不好,很麻煩 ==

11/05 00:12, 11小時前 , 29F
好詳細
11/05 00:12, 29F
還有 31 則推文
還有 7 段內文
文字不知道, 但是圖片現在反倒是因為盜圖網站本身的區隔讓畫師的作品與AI圖分隔的相當清楚, 起碼宅圖模型不太需要擔心這個問題。 當然壞處就是畫師的圖被學光光 == ※ 編輯: Satoman (1.163.128.113 臺灣), 11/05/2024 01:56:32

11/05 01:57, 9小時前 , 61F
盜圖網站不會盜AI圖嗎? 他們是怎麼區隔AI圖跟繪師圖的(
11/05 01:57, 61F

11/05 01:57, 9小時前 , 62F
′・ω・‵)
11/05 01:57, 62F

11/05 01:59, 9小時前 , 63F
網站的圖片是人上傳的,不是爬蟲
11/05 01:59, 63F

11/05 02:22, 9小時前 , 64F
雖然有些名詞看無但很有趣的介紹
11/05 02:22, 64F

11/05 02:40, 8小時前 , 65F
11/05 02:40, 65F

11/05 02:52, 8小時前 , 66F
隨便點進來沒想到內容超有料
11/05 02:52, 66F

11/05 02:58, 8小時前 , 67F
哪個
11/05 02:58, 67F

11/05 02:59, 8小時前 , 68F
盜圖網站這麼精準?
11/05 02:59, 68F

11/05 02:59, 8小時前 , 69F
板規禁止講的網站 ==
11/05 02:59, 69F

11/05 04:34, 6小時前 , 70F
推,專業文
11/05 04:34, 70F

11/05 05:17, 6小時前 , 71F
其實我比較好奇ai怎麼從以前面癱跟死板的動作變成
11/05 05:17, 71F

11/05 05:17, 6小時前 , 72F
現在表情豐富又可以玩花式體位,以前覺得沒fu現在
11/05 05:17, 72F

11/05 05:17, 6小時前 , 73F
可以尻了
11/05 05:17, 73F

11/05 05:20, 6小時前 , 74F
p站一堆實用ai咒術師
11/05 05:20, 74F

11/05 06:16, 5小時前 , 75F
推、推!很豐富詳細的解說。
11/05 06:16, 75F

11/05 06:19, 5小時前 , 76F
推詳細
11/05 06:19, 76F

11/05 07:01, 4小時前 , 77F
好酷哦 中途跑外送放棄一陣子沒想到這麼複雜
11/05 07:01, 77F

11/05 07:22, 4小時前 , 78F
pony 海一樣lora多少能補一下自身的缺陷吧,每天civitai
11/05 07:22, 78F

11/05 07:22, 4小時前 , 79F
上仍是一堆新lora冒出來
11/05 07:22, 79F

11/05 07:33, 3小時前 , 80F
11/05 07:33, 80F

11/05 07:35, 3小時前 , 81F
內容好多 推推
11/05 07:35, 81F

11/05 07:53, 3小時前 , 82F
我滿好奇,以前1.5的lora在SDXL還能用嗎
11/05 07:53, 82F

11/05 07:55, 3小時前 , 83F
另外現在SDXL在12G的3060不知道還跑不跑得動
11/05 07:55, 83F

11/05 08:00, 3小時前 , 84F
推 你是AI繪圖史官吧
11/05 08:00, 84F

11/05 08:04, 3小時前 , 85F
感謝 最近開始玩AI 解開了不少疑問
11/05 08:04, 85F

11/05 08:07, 3小時前 , 86F
讚讚讚
11/05 08:07, 86F

11/05 08:18, 3小時前 , 87F
這篇也太專業了吧 推一下
11/05 08:18, 87F

11/05 08:20, 3小時前 , 88F
專業推
11/05 08:20, 88F

11/05 08:21, 3小時前 , 89F
哇 太專業
11/05 08:21, 89F

11/05 08:25, 2小時前 , 90F
推專業
11/05 08:25, 90F

11/05 08:29, 2小時前 , 91F
太認真了吧
11/05 08:29, 91F

11/05 08:30, 2小時前 , 92F
好厲害啊
11/05 08:30, 92F

11/05 08:35, 2小時前 , 93F
大師
11/05 08:35, 93F

11/05 08:36, 2小時前 , 94F
好專業的文
11/05 08:36, 94F

11/05 08:43, 2小時前 , 95F
如果圖片是人上傳的,那種號稱有防ai學習技術的平台
11/05 08:43, 95F

11/05 08:43, 2小時前 , 96F
其實根本沒有用吧...
11/05 08:43, 96F

11/05 08:46, 2小時前 , 97F
(′・ω・`)小偷都會笑別人上的鎖沒用
11/05 08:46, 97F

11/05 08:47, 2小時前 , 98F
但是你加了一道爛鎖害小偷不能直接進去,他就會碎念
11/05 08:47, 98F

11/05 08:48, 2小時前 , 99F
(′・ω・`)比如你家又沒有什麼好偷之類的
11/05 08:48, 99F
文章代碼(AID): #1dAECSSC (C_Chat)
文章代碼(AID): #1dAECSSC (C_Chat)