[閒聊] AI使用Minecraft作為評測基準
https://x.com/Meituan_LongCat/status/2065464844112064541
https://pbs.twimg.com/media/HKn6bXxakAEBkSh.jpg

AI 使用 Minecraft 作為評測基準:MineExplorer 簡單介紹
你有沒有想過,玩《我的世界》(Minecraft)居然能用來測試 AI 的智慧程度?最近,
美團 LongCat 團隊推出了一個名為 MineExplorer 的 AI 評測基準(Benchmark),它
把 Minecraft 這個開放世界遊戲變成了一個科學的「AI 考場」,專門測試 AI 代理人在
複雜、真實環境中的探索能力。
為什麼用 Minecraft 來測 AI?
傳統的 AI 測試通常是給 AI 看圖片、回答問題,或完成短暫的固定任務,這些測試比較
「靜態」且不夠接近真實世界。
Minecraft 的優點在於:
開放世界:地圖很大、資源分散,AI 必須自己探索。
動態變化:AI 每走一步,世界就會即時改變(不像固定考卷)。
需要長期規劃:任務可能要花好幾分鐘、上千個步驟才能完成。
接近真實生活:需要觀察環境、推理因果、制定計劃、執行行動,幾乎把「在未知世界生
存」這件事濃縮進去了。
MineExplorer 的核心概念
MineExplorer 不是隨便讓 AI 去玩 Minecraft,而是設計了一系列有難度的結構化任務
。
例如:
簡單任務(Single-hop):找到一棵樹並砍下來。
困難任務(Multi-hop,多跳):AI 必須先找到某個地標 → 清除障礙 → 收集材料 →
合成工具 → 才能達成最終目標。
這些任務裡面藏了很多「隱藏的前提條件」(hidden prerequisites),AI 看不到明顯
提示,必須靠自己推理才能一步步完成。
團隊還開發了自動評分系統,使用規則來檢查 AI 是否真的達成了每個里程碑(
milestones),不需要人工打分。
目前 AI 表現如何?
https://pbs.twimg.com/media/HKn5Y-6b0AAxqY1.jpg

研究團隊測試了 18 個最先進的多模態大語言模型(包含 GPT5.4、Claude、Gemini 等)
,結果顯示:
最佳模型也只拿到 41 分(滿分 100)。
簡單一步任務還算可以,但需要多步推理的任務,成功率就大幅下滑。
最常失敗的原因竟然是最基本的導航:AI 明明看得到目標,卻常常找不到路或卡住。
即使給 AI 更長的記憶,也沒有顯著幫助,有時還因為記太多舊畫面而變差。
這顯示:現在的 AI 雖然「看得見」世界,卻還不擅長「探索」和「長期規劃」世界。
為什麼這個基準重要?
MineExplorer 提供了一個公開、透明、可重現的測試平台,讓研究人員能清楚衡量 AI
在開放世界中的真實能力。它不只用來排名模型,更開放了任務生成工具,任何人都可以
用它來產生新任務,或用來訓練更強的 AI 代理人。
未來,當 AI 在 MineExplorer 上拿到高分時,可能代表它已經具備更接近人類的探索與
適應能力,這對機器人、自動駕駛、遊戲 NPC 等實際應用有很大幫助。
總結
Minecraft 不再只是遊戲,它已經成為 AI 研究的重要「沙盒」。MineExplorer 把這個
沙盒變得更有系統、更科學,讓我們能清楚看到目前 AI 的極限在哪裡,以及未來還需要
突破哪些關鍵能力。想了解更多,可以去看他們的:
GitHub 專案
https://github.com/meituan-longcat/MineExplorer
Hugging Face 資料集
https://huggingface.co/datasets/meituan-longcat/MineExplorer
論文(arXiv 2605.30931)
https://arxiv.org/abs/2605.30931
你覺得 AI 什麼時候才能在 Minecraft 裡像人類玩家一樣自由探索呢?
--
Grok整理
等AI也學會玩遊戲你就知道
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.213.116 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1781316664.A.E99.html
推
06/13 10:12,
1小時前
, 1F
06/13 10:12, 1F
→
06/13 10:12,
1小時前
, 2F
06/13 10:12, 2F
推
06/13 10:13,
1小時前
, 3F
06/13 10:13, 3F
→
06/13 10:14,
1小時前
, 4F
06/13 10:14, 4F
→
06/13 10:14,
1小時前
, 5F
06/13 10:14, 5F
推
06/13 10:15,
1小時前
, 6F
06/13 10:15, 6F
→
06/13 10:15,
1小時前
, 7F
06/13 10:15, 7F
推
06/13 10:16,
1小時前
, 8F
06/13 10:16, 8F
→
06/13 10:19,
1小時前
, 9F
06/13 10:19, 9F
※ 編輯: error405 (114.36.213.116 臺灣), 06/13/2026 10:20:24
推
06/13 10:20,
1小時前
, 10F
06/13 10:20, 10F
→
06/13 10:20,
1小時前
, 11F
06/13 10:20, 11F
→
06/13 10:27,
1小時前
, 12F
06/13 10:27, 12F
→
06/13 10:27,
1小時前
, 13F
06/13 10:27, 13F
推
06/13 10:28,
1小時前
, 14F
06/13 10:28, 14F
※ error405:轉錄至看板 AI_Art 06/13 10:47
※ error405:轉錄至看板 Minecraft 06/13 10:47
推
06/13 11:13,
58分鐘前
, 15F
06/13 11:13, 15F
→
06/13 11:14,
57分鐘前
, 16F
06/13 11:14, 16F
→
06/13 11:14,
57分鐘前
, 17F
06/13 11:14, 17F
推
06/13 11:22,
49分鐘前
, 18F
06/13 11:22, 18F
→
06/13 11:26,
45分鐘前
, 19F
06/13 11:26, 19F
C_Chat 近期熱門文章
40
47
PTT動漫區 即時熱門文章