[閒聊] 用兩億個參數訓練AI打Pokemon對戰

看板C_Chat (希洽)作者 (奪真書生A.W.)時間8月前 (2025/04/22 07:58), 8月前編輯推噓13(13028)
留言41則, 21人參與, 7月前最新討論串1/1
https://arxiv.org/abs/2504.04395 UT Austin資工系一群研究人員 使用線上對戰遊戲Competitive Pokémon Singles (CPS) 過去15年的真人6v6 pokemon對戰歷史資料共95萬場比賽 以強化學習的方式學習遊戲技巧 (何時攻擊、用啥攻擊、換怪、換啥怪、場地天候因素、考量對手攻擊集氣等,最 多到兩億的參數), 最後把訓練的模型匿名偷偷拿去真人對戰爬積分, 成功爬到前10%的ranking https://imgur.com/DqrgjKj.png
這代表AI也開始進攻Pokemon對戰遊戲了 不過才爬到前10%,代表還有10%的人可以打贏AI 不過這遊戲在台灣好像現在討論不多就是了 ---- 另外  期刊作者順序  作者說是比賽Pokemon決定的.... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.31.73.137 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1745279894.A.C0F.html ※ 編輯: wearytolove (108.31.73.137 美國), 04/22/2025 07:58:34

04/22 08:03, 8月前 , 1F
2億以模型來說算很多嗎
04/22 08:03, 1F

04/22 08:04, 8月前 , 2F
GPT-1 1.1億 GPT-2 15億 GPT-4 5000億+ 2億是迷你模型
04/22 08:04, 2F

04/22 08:13, 8月前 , 3F
可是每代的戰術多少有差,太久的也不能參考吧,這要能打到
04/22 08:13, 3F

04/22 08:13, 8月前 , 4F
1%應該很難,雖然好像部分版本的情況比較單一,不用判斷那
04/22 08:13, 4F

04/22 08:13, 8月前 , 5F
麼多
04/22 08:13, 5F

04/22 08:13, 8月前 , 6F
AI會摸去化石嗎?
04/22 08:13, 6F

04/22 08:15, 8月前 , 7F
他用強化學習的只要換代時花點時間再訓練就好 只要設備夠
04/22 08:15, 7F

04/22 08:16, 8月前 , 8F
好很快又能爬上去
04/22 08:16, 8F

04/22 08:22, 8月前 , 9F
反正大多數時間猜守住跟丟硬幣並沒有區別
04/22 08:22, 9F

04/22 08:23, 8月前 , 10F
打大師績分完全OK
04/22 08:23, 10F

04/22 08:24, 8月前 , 11F
只要沒涉及養怪戰術都沒啥研究難度
04/22 08:24, 11F

04/22 08:33, 8月前 , 12F
所以有得出現在規則哪個神最強嗎?
04/22 08:33, 12F

04/22 08:48, 8月前 , 13F
10%也滿強了 至少多數玩家贏不了ai
04/22 08:48, 13F

04/22 08:50, 8月前 , 14F
2億不大 有顯卡就能跑
04/22 08:50, 14F

04/22 08:59, 8月前 , 15F
10%蠻爛的吧 在認真玩家眼裡可能都有很多明顯的錯誤
04/22 08:59, 15F

04/22 09:04, 8月前 , 16F
2億是0.2B?那超迷你模型欸 搞不好手機都能跑
04/22 09:04, 16F

04/22 09:13, 8月前 , 17F
有包含編隊跟配招嗎?
04/22 09:13, 17F

04/22 09:14, 8月前 , 18F
前10%不就是pr90的意思嗎 還是天梯只有前10%才競爭
04/22 09:14, 18F

04/22 09:14, 8月前 , 19F
底下很多只是玩自己喜歡的隊伍
04/22 09:14, 19F

04/22 09:23, 8月前 , 20F
圍棋ai都能打世界冠軍了 寶可夢ai只能10%相比之下難免
04/22 09:23, 20F

04/22 09:23, 8月前 , 21F
讓人覺得不足
04/22 09:23, 21F

04/22 09:26, 8月前 , 22F
感覺應該要進3%左右才算強吧 10%感覺就一般熱衷玩家
04/22 09:26, 22F

04/22 09:27, 8月前 , 23F
這還會牽涉對戰環境
04/22 09:27, 23F

04/22 09:27, 8月前 , 24F
某種隊伍太強勢就會有很多人開始針對
04/22 09:27, 24F

04/22 09:27, 8月前 , 25F
如果勝率保持在70%甚至80%以上就非常強了
04/22 09:27, 25F

04/22 09:28, 8月前 , 26F
不過也要看打的場次跟勝率就是了
04/22 09:28, 26F

04/22 09:31, 7月前 , 27F
LLM 2B模型剛好能給手機跑
04/22 09:31, 27F

04/22 09:37, 7月前 , 28F
感覺跟圍棋不一樣,組成有可能遇到被針對而輸面較大吧
04/22 09:37, 28F

04/22 10:02, 7月前 , 29F
好幾篇論文都指出的 對戰類遊戲使用 Enforce Learning
04/22 10:02, 29F

04/22 10:02, 7月前 , 30F
訓練的話 在初期的學習曲線會飆很快 但很快在接近人類
04/22 10:02, 30F

04/22 10:02, 7月前 , 31F
頂尖水平時就會停滯不前 最終無論訓練參數多大 都無法
04/22 10:02, 31F

04/22 10:02, 7月前 , 32F
突破人類極限
04/22 10:02, 32F

04/22 10:03, 7月前 , 33F
看天梯排名沒意義吧,這東西終究是勝率別太慘就會越打越
04/22 10:03, 33F

04/22 10:03, 7月前 , 34F
高,又不是說你勝率90%
04/22 10:03, 34F

04/22 10:04, 7月前 , 35F
90%玩家根本不會一天24小時泡在天梯上面拼排名
04/22 10:04, 35F

04/22 11:00, 7月前 , 36F
可是圍棋規則是不變的不是?雖然戰術與時俱進,但是基本邏
04/22 11:00, 36F

04/22 11:00, 7月前 , 37F
輯都可以通用,但有meta或是系統差異的遊戲,部分參數應該
04/22 11:00, 37F

04/22 11:00, 7月前 , 38F
是沒用的?實際訓練量應該少很多?
04/22 11:00, 38F

04/22 11:12, 7月前 , 39F
圍棋規則比較固定 寶可夢從組隊就很吃環境的影響
04/22 11:12, 39F

04/22 11:38, 7月前 , 40F
圍棋 西洋棋這種明面上沒有未知資訊的比較適合AI演算?
04/22 11:38, 40F

04/22 11:38, 7月前 , 41F
西洋棋的死魚也沒有活人打得贏吧
04/22 11:38, 41F
文章代碼(AID): #1e1jkMmF (C_Chat)
文章代碼(AID): #1e1jkMmF (C_Chat)