Re: [閒聊] 各位覺得AI是否無法自創畫風?
看板C_Chat (希洽)作者sxy67230 (charlesgg)時間21小時前 (2025/04/03 09:02)推噓10(10推 0噓 40→)留言50則, 11人參與討論串5/5 (看更多)
※ 引述 《sxy67230》 之銘言:
: 噓 leo125160909: 目前雜訊生成的方式只能生出跟訓練資料相似的東西, 04/02 16:18
: → leo125160909: 無法無中生有 04/02 16:18
: → leo125160909: AI畫手指畫成一朵花、畫拉麵用手抓,說明AI生圖跟人 04/02 16:21
: → leo125160909: 類畫圖的邏輯根本上不同,除非AGI能結合邏輯思考生 04/02 16:21
: → leo125160909: 圖,不然目前的AI仍然只是精巧的模仿而已 04/02 16:21
這邊早上才看到,所以想說用回覆的。
這邊說的是diffusion based的model,但這次OpenAI展示的其實可能不是基於這種diffusio
n based model,這邊要說到一個問題就是傳統diffusion model有一個問題就是要做到scal
ing up非常不容易,模型越大越不好做擴散過程(效率慢計算資源消耗大),這導致diffus
ion model通常大小不會太大。雖然說目前確實證實了LDM確實存在縮放法則但真的做到跟LL
M相同尺寸的根本還不存在。
然後這邊要說的是去年字節跳動跟北大的一篇新研究Vision autoregressive model(雖然
作者後來被字節跳動告了,主要原因是因為他不滿公司資源調派,Hacking公司同事的機器
破壞同事的工作。本來字節是惜才不想鬧大後來作者自己鬧大被字節提告),這篇有拿到Ne
uraIPS 2024的最佳論文獎,主要的想法是直接拿現在LLM的自回歸架構來訓練圖片生成,然
後採用了多尺度逐Token預測避免了之前Vision AR模型做不太起來的問題,這樣就把很多計
算問題解掉可以像大語言模型一樣Scaling擴大到70B的參數以上,研究也發現超過現有主流
擴散模型,而且也發現像傳統LDM出現的繪圖細節瑕疵在VAR上是可以大機率被避免掉的。
而且VAR真正開啟的可能是我們可以像LLM一樣訓練VAR對齊人類偏好跟做圖片推理鏈,這應
該是未來3-5年很有可能發生的。
可能未來繪師口中的靈魂跟繪畫溫度只存在提示詞中。
以上
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.105.9 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1743642144.A.E71.html
→
04/03 09:04,
21小時前
, 1F
04/03 09:04, 1F
※ 編輯: sxy67230 (49.216.105.9 臺灣), 04/03/2025 09:05:05
※ 編輯: sxy67230 (49.216.105.9 臺灣), 04/03/2025 09:05:40
推
04/03 09:06,
21小時前
, 2F
04/03 09:06, 2F
推
04/03 09:06,
21小時前
, 3F
04/03 09:06, 3F
→
04/03 09:07,
21小時前
, 4F
04/03 09:07, 4F
→
04/03 09:07,
21小時前
, 5F
04/03 09:07, 5F
※ 編輯: sxy67230 (49.216.105.9 臺灣), 04/03/2025 09:08:27
→
04/03 09:09,
21小時前
, 6F
04/03 09:09, 6F

→
04/03 09:11,
21小時前
, 7F
04/03 09:11, 7F
推
04/03 09:14,
21小時前
, 8F
04/03 09:14, 8F
→
04/03 09:14,
21小時前
, 9F
04/03 09:14, 9F
推
04/03 09:16,
21小時前
, 10F
04/03 09:16, 10F
→
04/03 09:16,
21小時前
, 11F
04/03 09:16, 11F
→
04/03 09:16,
21小時前
, 12F
04/03 09:16, 12F
→
04/03 09:17,
21小時前
, 13F
04/03 09:17, 13F
→
04/03 09:18,
21小時前
, 14F
04/03 09:18, 14F
→
04/03 09:18,
21小時前
, 15F
04/03 09:18, 15F
→
04/03 09:18,
21小時前
, 16F
04/03 09:18, 16F
推
04/03 09:18,
21小時前
, 17F
04/03 09:18, 17F
→
04/03 09:18,
21小時前
, 18F
04/03 09:18, 18F
→
04/03 09:19,
21小時前
, 19F
04/03 09:19, 19F
→
04/03 09:20,
21小時前
, 20F
04/03 09:20, 20F
→
04/03 09:20,
21小時前
, 21F
04/03 09:20, 21F
→
04/03 09:21,
21小時前
, 22F
04/03 09:21, 22F
→
04/03 09:22,
21小時前
, 23F
04/03 09:22, 23F
推
04/03 09:22,
21小時前
, 24F
04/03 09:22, 24F
目前只有blog跟一些片段資訊維持過往closeAI不透露模型架構細節,但從中推測很有可能
類似去年字節那套VAR的方法也就是讓圖片是天然跟語言一起學習的,這樣生成出來的東西
理論上是更具備潛力而且可以透過多輪指令遵循改進圖片生成結果。
推
04/03 09:22,
21小時前
, 25F
04/03 09:22, 25F
→
04/03 09:23,
21小時前
, 26F
04/03 09:23, 26F
→
04/03 09:24,
21小時前
, 27F
04/03 09:24, 27F
→
04/03 09:25,
21小時前
, 28F
04/03 09:25, 28F
→
04/03 09:26,
21小時前
, 29F
04/03 09:26, 29F
→
04/03 09:27,
21小時前
, 30F
04/03 09:27, 30F
→
04/03 09:28,
21小時前
, 31F
04/03 09:28, 31F
→
04/03 09:28,
21小時前
, 32F
04/03 09:28, 32F
→
04/03 09:30,
21小時前
, 33F
04/03 09:30, 33F
→
04/03 09:30,
21小時前
, 34F
04/03 09:30, 34F
→
04/03 09:31,
21小時前
, 35F
04/03 09:31, 35F
→
04/03 09:31,
21小時前
, 36F
04/03 09:31, 36F
推
04/03 09:33,
20小時前
, 37F
04/03 09:33, 37F
→
04/03 09:35,
20小時前
, 38F
04/03 09:35, 38F
→
04/03 09:35,
20小時前
, 39F
04/03 09:35, 39F
→
04/03 09:44,
20小時前
, 40F
04/03 09:44, 40F
→
04/03 09:49,
20小時前
, 41F
04/03 09:49, 41F
→
04/03 09:50,
20小時前
, 42F
04/03 09:50, 42F
→
04/03 09:57,
20小時前
, 43F
04/03 09:57, 43F
→
04/03 09:57,
20小時前
, 44F
04/03 09:57, 44F
推
04/03 09:59,
20小時前
, 45F
04/03 09:59, 45F
※ 編輯: sxy67230 (49.216.105.9 臺灣), 04/03/2025 10:01:05
推
04/03 11:45,
18小時前
, 46F
04/03 11:45, 46F
→
04/03 18:20,
12小時前
, 47F
04/03 18:20, 47F
→
04/03 18:23,
12小時前
, 48F
04/03 18:23, 48F
→
04/03 18:25,
12小時前
, 49F
04/03 18:25, 49F
→
04/03 18:25,
12小時前
, 50F
04/03 18:25, 50F
討論串 (同標題文章)
C_Chat 近期熱門文章
PTT動漫區 即時熱門文章