[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3
https://arcprize.org/arc-agi/3
按Play [Humans]開始玩
說明:
ARC-AGI-3 是 2026 年 3 月底才正式推出的互動式(agentic)基準測試,跟之前的
ARC-AGI-1/2 很不一樣。它不是靜態的格子拼圖,而是讓 AI 在完全陌生的環境中探索、
即時學習目標、建立世界模型、並有效率地行動。
人類在這些環境中幾乎都能 100% 解決(通常幾分鐘內搞定)。
前沿大模型 的表現非常慘:Google Gemini 3.1 Pro Preview:最高約 0.37%
OpenAI GPT-5.4 High:約 0.26%
Anthropic Claude Opus 4.6 Max:約 0.25%
xAI Grok 4.20(Reasoning 模式):0%
整體來說,目前所有公開測試的前沿 AI 分數都低於 1%,遠遠達不到「破關」的程度。
公開的 agent 嘗試(非官方大模型 leaderboard)在 ARC Prize 官方的 unverified
live leaderboard(開放給大家提交 agent 的排行),目前最好的開源/自製 agent 分
數也只有 12.58%(StochasticGoose 團隊,完成 18 個 levels),其他大多在 3~8% 左
右。這些是專門為 ARC-AGI-3 設計的 agent,不是純靠大模型。
ARC Prize 2026 競賽現況總獎金高達 200 萬美元,其中 ARC-AGI-3 軌道的 Grand
Prize(100%) 是 70 萬美元。
比賽剛開始沒多久(2026/3/25 啟動),還有好幾個月才到 milestone 和最終截止,目
前還在早期階段,沒有人接近 100%。
之前 2025 年的 ARC Prize(主要用 ARC-AGI-2)最高也只到 24% 左右,Grand Prize
同樣沒人領走。
簡單說,ARC-AGI-3 現在是目前最「未飽和」的 AGI 相關基準之一,專門用來測量 AI
在全新情境下的流體智能(fluid intelligence)和學習效率,目前 AI 跟人類的差距還
非常明顯。
--
grok整理
另外的參考說明:https://www.ithome.com.tw/news/174698
我也過了幾個小遊戲確定了自己還能被稱為人類
AI是不懂自主判斷遊戲目的遊戲機制的 至少現在還是啦
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.230.45 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1775469719.A.B1D.html
※ 編輯: error405 (114.36.230.45 臺灣), 04/06/2026 18:19:13
推
04/06 18:24,
1小時前
, 1F
04/06 18:24, 1F
推
04/06 18:30,
1小時前
, 2F
04/06 18:30, 2F
※ error405:轉錄至看板 AI_Art 04/06 18:34
※ error405:轉錄至看板 Little-Games 04/06 18:35
推
04/06 19:06,
43分鐘前
, 3F
04/06 19:06, 3F
C_Chat 近期熱門文章
11
18
15
20
PTT動漫區 即時熱門文章