[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3

看板C_Chat (希洽)作者error405 (流河=L)時間1小時前 (2026/04/06 18:01)推噓3(3推 0噓 0→)

留言3則, 3人參與討論串1/1

https://arcprize.org/arc-agi/3 按Play [Humans]開始玩說明: ARC-AGI-3 是 2026 年 3 月底才正式推出的互動式（agentic）基準測試，跟之前的 ARC-AGI-1/2 很不一樣。它不是靜態的格子拼圖，而是讓 AI 在完全陌生的環境中探索、即時學習目標、建立世界模型、並有效率地行動。人類在這些環境中幾乎都能 100% 解決（通常幾分鐘內搞定）。前沿大模型的表現非常慘：Google Gemini 3.1 Pro Preview：最高約 0.37% OpenAI GPT-5.4 High：約 0.26% Anthropic Claude Opus 4.6 Max：約 0.25% xAI Grok 4.20（Reasoning 模式）：0% 整體來說，目前所有公開測試的前沿 AI 分數都低於 1%，遠遠達不到「破關」的程度。公開的 agent 嘗試（非官方大模型 leaderboard）在 ARC Prize 官方的 unverified live leaderboard（開放給大家提交 agent 的排行），目前最好的開源/自製 agent 分數也只有 12.58%（StochasticGoose 團隊，完成 18 個 levels），其他大多在 3~8% 左右。這些是專門為 ARC-AGI-3 設計的 agent，不是純靠大模型。 ARC Prize 2026 競賽現況總獎金高達 200 萬美元，其中 ARC-AGI-3 軌道的 Grand Prize（100%）是 70 萬美元。比賽剛開始沒多久（2026/3/25 啟動），還有好幾個月才到 milestone 和最終截止，目前還在早期階段，沒有人接近 100%。之前 2025 年的 ARC Prize（主要用 ARC-AGI-2）最高也只到 24% 左右，Grand Prize 同樣沒人領走。簡單說，ARC-AGI-3 現在是目前最「未飽和」的 AGI 相關基準之一，專門用來測量 AI 在全新情境下的流體智能（fluid intelligence）和學習效率，目前 AI 跟人類的差距還非常明顯。 -- grok整理另外的參考說明:https://www.ithome.com.tw/news/174698 我也過了幾個小遊戲確定了自己還能被稱為人類 AI是不懂自主判斷遊戲目的遊戲機制的至少現在還是啦 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.230.45 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1775469719.A.B1D.html ※ 編輯: error405 (114.36.230.45 臺灣), 04/06/2026 18:19:13