[閒聊] AI玩遊戲學習非最佳解會怎樣

看板C_Chat (希洽)作者 (川尻浩作)時間3小時前 (2025/02/24 14:45), 編輯推噓27(27021)
留言48則, 22人參與, 1小時前最新討論串1/1
嗯吶 好奇問一下啊 大家都知道LOL這種遊戲 如果給AI練習走位 大概會比非可還強 而AI一向是朝最佳解去學習的 但就好奇啊 如果給AI餵像是羅傑或是大開的操作 逼迫AI去學習非最佳解 會變什麼樣啊? 有人知道咪? -- 蘿莉銘 身不在高,米四就行,胸不在大,有型則靈,斯是蘿莉,為吾是侵。 洋裝貓耳朵,小嘴大眼睛。短髮很俏麗,長髮也飄逸。可以給糖果,玩親親。 無八卦之亂耳,無血拼之勞行。學校游泳室,公園小涼亭。吾自云:能萌就行 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.53.40.2 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1740379546.A.BB8.html

02/24 14:47, 3小時前 , 1F
死歌不會開大 因為不知道唱哪
02/24 14:47, 1F

02/24 14:47, 3小時前 , 2F
input trash output trash
02/24 14:47, 2F

02/24 14:48, 3小時前 , 3F
傑西沒大
02/24 14:48, 3F

02/24 14:48, 3小時前 , 4F
不如讓他學習怎麼跟聊天時室對線
02/24 14:48, 4F

02/24 14:48, 3小時前 , 5F
傑西沒大
02/24 14:48, 5F

02/24 14:48, 3小時前 , 6F
AI學走位的巔峰不就腳本外掛嗎?==
02/24 14:48, 6F

02/24 14:49, 3小時前 , 7F
腳本有需要用深度學習嗎?
02/24 14:49, 7F

02/24 14:49, 3小時前 , 8F
聊天室老媽祖墳會爆開
02/24 14:49, 8F

02/24 14:49, 3小時前 , 9F
不是說髒話,但以最佳化的觀點去看就是上面的結論
02/24 14:49, 9F

02/24 14:50, 3小時前 , 10F
腳本還會跟人搶滑鼠,AI親自上我都不敢想
02/24 14:50, 10F

02/24 14:50, 3小時前 , 11F
你模型還是會算loss啊 所以還是會收斂
02/24 14:50, 11F

02/24 14:52, 3小時前 , 12F
不如請AI玩動漫歌二選一
02/24 14:52, 12F

02/24 14:53, 3小時前 , 13F
AlphaGO第一版就是這樣,餵食了大量人類棋譜
02/24 14:53, 13F

02/24 14:53, 3小時前 , 14F
後來的結論就是人類圍棋什麼弱雞,不餵食的版本更強
02/24 14:53, 14F

02/24 14:53, 3小時前 , 15F
不過弱雞版AlphaGO還是能夠4:1李世石
02/24 14:53, 15F

02/24 14:53, 3小時前 , 16F
操作爛的 一次偏左一次偏右 平均下來還是一樣
02/24 14:53, 16F

02/24 14:53, 3小時前 , 17F
然後完全最佳化,同時閃避+維持輸出範圍的情況,跟腳本應
02/24 14:53, 17F

02/24 14:53, 3小時前 , 18F
該要是相同的行動,只是原理變成你學習抓到那一frame輸出
02/24 14:53, 18F

02/24 14:53, 3小時前 , 19F
移動指令要怎麼下而已。腳本比較像是直接抓對面丟技能的事
02/24 14:53, 19F

02/24 14:53, 3小時前 , 20F
02/24 14:53, 20F

02/24 14:54, 3小時前 , 21F
AlphaGO零號(不看人類棋譜)則在網路上匿名痛電所有職
02/24 14:54, 21F

02/24 14:54, 3小時前 , 22F
業棋手,60:0
02/24 14:54, 22F

02/24 14:55, 3小時前 , 23F
像初版學人類alphago一樣 強度比後來自己練的版本低吧?
02/24 14:55, 23F

02/24 14:57, 3小時前 , 24F
人類圍棋知識中有少數確實是弱雞,一些小時候你下了
02/24 14:57, 24F

02/24 14:57, 3小時前 , 25F
會被老師釘在牆上的「臭棋」,現在可以換老師被釘在
02/24 14:57, 25F

02/24 14:57, 3小時前 , 26F
牆上
02/24 14:57, 26F

02/24 14:57, 3小時前 , 27F
不過大多數人類結論還是和AI一致,也沒有多丟臉
02/24 14:57, 27F

02/24 14:57, 3小時前 , 28F
用格鬥來說,電腦比人類笨的地方在於能騙招,但是這
02/24 14:57, 28F

02/24 14:57, 3小時前 , 29F
種電腦都是事先寫好了,所以能騙一次就是騙無數次,
02/24 14:57, 29F

02/24 14:57, 3小時前 , 30F
如果電腦本身會學習並改良,那我想不到人類要怎麼贏
02/24 14:57, 30F

02/24 14:59, 3小時前 , 31F
你跳就623,你投就秒拆投,你做的任何動作電腦都能
02/24 14:59, 31F

02/24 14:59, 3小時前 , 32F
反應,做的都是錯的,想想就有夠牢
02/24 14:59, 32F

02/24 15:03, 3小時前 , 33F
所以有的訓練會把AI的反應時間限制成人類等級
02/24 15:03, 33F

02/24 15:03, 3小時前 , 34F
就是避免AI秒讀招然後拆解 但實際上人類根本做不到
02/24 15:03, 34F

02/24 15:04, 3小時前 , 35F
早有了
02/24 15:04, 35F

02/24 15:07, 2小時前 , 36F
阿法狗:學你們人類棋譜不如自我學習
02/24 15:07, 36F

02/24 15:07, 2小時前 , 37F
人類喂AI現有招式不會讓AI進化
02/24 15:07, 37F

02/24 15:07, 2小時前 , 38F
local optimal or global optimal
02/24 15:07, 38F

02/24 15:08, 2小時前 , 39F
感覺就是對策略空間限制搜索範圍之類的?
02/24 15:08, 39F

02/24 15:08, 2小時前 , 40F
就像對一個獎勵函數加一個限制約束項
02/24 15:08, 40F

02/24 15:13, 2小時前 , 41F
全看你怎麼給獎勵函數
02/24 15:13, 41F

02/24 15:16, 2小時前 , 42F
https://b23.tv/wcGv3pl 可以看看這篇是怎麼訓練的
02/24 15:16, 42F

02/24 15:26, 2小時前 , 43F
反正AI現在遊戲的結論就是全面爆殺人類,什麼大局觀、不
02/24 15:26, 43F

02/24 15:26, 2小時前 , 44F
完全資訊、細部操作。人類都是弱雞
02/24 15:26, 44F

02/24 15:40, 2小時前 , 45F
至少AI還沒辦法自己做遊戲出來
02/24 15:40, 45F

02/24 16:11, 1小時前 , 46F
星海2無限制AI好像真的會噴垃圾話
02/24 16:11, 46F

02/24 16:14, 1小時前 , 47F
可能還是會很強 就像初代alphago就是餵了很多人類棋譜
02/24 16:14, 47F

02/24 16:14, 1小時前 , 48F
事實證明 沒喂讓他自己學比較強
02/24 16:14, 48F
文章代碼(AID): #1dl1MQku (C_Chat)
文章代碼(AID): #1dl1MQku (C_Chat)