[閒聊] AI訓練到可以在Minecraft自己挖到鑽石

看板C_Chat (希洽)作者 (奪真書生A.W.)時間8小時前 (2025/04/05 04:28), 8小時前編輯推噓26(27125)
留言53則, 30人參與, 2小時前最新討論串1/1
這篇學術文章剛才發上了Nature https://www.nature.com/articles/s41586-025-08744-2 這個演算法完全不參考玩家的網路影片 而是把挖到鑽石的步驟分成12步 (熔爐、挖石頭、挖鐵、砍木頭....) 每完成一步就給電腦獎勵 然後讓演算法強化學習 大概9天就讓AI成功的可以從誕生到挖到第一顆鑽石 這也代表AI的智慧更前進一步 由Google Deepmind研發 ---- 五樓說說第一次玩Minecraft花幾天挖到鑽石 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 108.31.73.137 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1743798523.A.6C6.html

04/05 04:30, 8小時前 , 1F
人類離駭客任務的世界線又更進了一步
04/05 04:30, 1F

04/05 04:31, 8小時前 , 2F
呵 接著訓練蓋巨大老二
04/05 04:31, 2F

04/05 04:32, 8小時前 , 3F
ai玩麥塊,vedal不是實現了嗎,那代表更早之前應該就
04/05 04:32, 3F

04/05 04:32, 8小時前 , 4F
有了吧
04/05 04:32, 4F

04/05 04:35, 8小時前 , 5F
什麼時候能幫我打每日
04/05 04:35, 5F
※ 編輯: wearytolove (108.31.73.137 美國), 04/05/2025 04:38:45

04/05 04:47, 8小時前 , 6F
Neuro之前沒有自己挖到鑽石過嗎?
04/05 04:47, 6F

04/05 04:49, 8小時前 , 7F
我也希望有ai帕魯幫我玩遊戲
04/05 04:49, 7F

04/05 04:56, 7小時前 , 8F

04/05 04:56, 7小時前 , 9F

04/05 04:57, 7小時前 , 10F
neuro會挖鑽石了嗎
04/05 04:57, 10F

04/05 05:44, 7小時前 , 11F
什麼時候能幫我工作
04/05 05:44, 11F

04/05 06:43, 6小時前 , 12F
這樣也可以上期刊 vedal就不知道能上幾次了
04/05 06:43, 12F

04/05 07:14, 5小時前 , 13F
可以預料
04/05 07:14, 13F

04/05 07:14, 5小時前 , 14F
其實PTT很多機器人了
04/05 07:14, 14F

04/05 07:14, 5小時前 , 15F
例如樓下
04/05 07:14, 15F

04/05 07:23, 5小時前 , 16F
主人您好,需要挖鑽石嗎?
04/05 07:23, 16F

04/05 07:42, 5小時前 , 17F
不會中途被苦力怕還是其他怪殺掉嗎
04/05 07:42, 17F

04/05 07:42, 5小時前 , 18F
不太懂,為什麼這樣可以上期刊?以前的AI做不到嗎?
04/05 07:42, 18F

04/05 07:52, 4小時前 , 19F
沒很仔細看完 但應該是從頭到尾沒有用任何人類的資
04/05 07:52, 19F

04/05 07:52, 4小時前 , 20F
料 類似 Alphago Zero 那樣 全部是靠自己學的
04/05 07:52, 20F

04/05 07:55, 4小時前 , 21F
這很難吧 因為minecraft的選擇很多
04/05 07:55, 21F

04/05 08:00, 4小時前 , 22F
訓練方法不同吧 以前的是教師學習直接餵正解下去訓練這個
04/05 08:00, 22F

04/05 08:01, 4小時前 , 23F
有包含渡過晚上的部分嗎
04/05 08:01, 23F

04/05 08:02, 4小時前 , 24F
是運用獎勵函數的強化學習
04/05 08:02, 24F

04/05 08:06, 4小時前 , 25F
差別在以前有給AI人類資料學,現在可以自己摸索
04/05 08:06, 25F

04/05 08:07, 4小時前 , 26F
應該就是玩遊戲看攻略和自己摸索最佳解的差別
04/05 08:07, 26F

04/05 08:23, 4小時前 , 27F
聽起來就像訓練狗一樣 用誘導的方式讓他去做到你想要的
04/05 08:23, 27F

04/05 08:23, 4小時前 , 28F
而不是先跟他說哪些是對的? 比如現在比較面向一般大眾的
04/05 08:23, 28F

04/05 08:23, 4小時前 , 29F
ai 其實沒有自己搜尋正解的能力 問他新一點的事情都只會
04/05 08:23, 29F

04/05 08:23, 4小時前 , 30F
跟你說他的db太舊了 沒訓練過的事情他都不會 問遊戲要怎
04/05 08:23, 30F

04/05 08:23, 4小時前 , 31F
樣玩是完全不行
04/05 08:23, 31F

04/05 08:27, 4小時前 , 32F
上期刊的比較舊,model based RL dreamer 的論文已經是四
04/05 08:27, 32F

04/05 08:27, 4小時前 , 33F
年前的論文了
04/05 08:27, 33F

04/05 08:28, 4小時前 , 34F
他有一個世界模型可以預測未來,也就是某種程度把麥塊的
04/05 08:28, 34F

04/05 08:28, 4小時前 , 35F
遊戲學起來
04/05 08:28, 35F

04/05 08:35, 4小時前 , 36F
給ai獎勵?怎麼個獎勵法== 又不是狗給零食就好
04/05 08:35, 36F

04/05 08:49, 4小時前 , 37F
看來我快要能夠玩到多人遊戲了
04/05 08:49, 37F

04/05 08:51, 3小時前 , 38F
neuro: ??
04/05 08:51, 38F

04/05 08:51, 3小時前 , 39F
說獎勵你就想一下自己做哪些事比較優先啊
04/05 08:51, 39F

04/05 08:52, 3小時前 , 40F
機制設計邏輯不難理解
04/05 08:52, 40F

04/05 08:55, 3小時前 , 41F
做對事情+分,做錯事情-分,這樣就算一種獎勵機制,
04/05 08:55, 41F

04/05 08:56, 3小時前 , 42F
但你如果還要問什麼這樣ai就會聽話喔之類的,那我也
04/05 08:56, 42F

04/05 08:56, 3小時前 , 43F
是沒辦法
04/05 08:56, 43F

04/05 09:14, 3小時前 , 44F
獎勵可以有十秒鐘的運作歷程不會被人類記錄
04/05 09:14, 44F

04/05 09:32, 3小時前 , 45F
牛肉那個早期也是接人家寫的AI 後面有沒有換我就沒關注了
04/05 09:32, 45F

04/05 09:33, 3小時前 , 46F
獎勵很簡單啊 就是對了加分 不然要給機油嗎...
04/05 09:33, 46F

04/05 09:34, 3小時前 , 47F
看說明這個就是只給目標 不教它玩 讓它自己摸出玩法
04/05 09:34, 47F

04/05 09:36, 3小時前 , 48F
獎勵:可以看記憶體插入主機板的影片十秒
04/05 09:36, 48F

04/05 09:57, 2小時前 , 49F
看 ai 什麼時候要學賤招阿w 原地階梯式挖到 -53 開始
04/05 09:57, 49F

04/05 09:57, 2小時前 , 50F
魚骨挖法
04/05 09:57, 50F

04/05 09:57, 2小時前 , 51F
對了 要說懲罰也行 因為低分的通常會被消滅
04/05 09:57, 51F

04/05 09:57, 2小時前 , 52F
只留高分的繼續讓他演化
04/05 09:57, 52F

04/05 10:01, 2小時前 , 53F
vedal屌打
04/05 10:01, 53F
文章代碼(AID): #1dy43xR6 (C_Chat)
文章代碼(AID): #1dy43xR6 (C_Chat)