[閒聊] 玩小遊戲證明你比AI聰明 ARC-AGI-3

看板C_Chat (希洽)作者 (流河=L)時間1小時前 (2026/04/06 18:01), 1小時前編輯推噓3(300)
留言3則, 3人參與, 43分鐘前最新討論串1/1
https://arcprize.org/arc-agi/3 按Play [Humans]開始玩 說明: ARC-AGI-3 是 2026 年 3 月底才正式推出的互動式(agentic)基準測試,跟之前的 ARC-AGI-1/2 很不一樣。它不是靜態的格子拼圖,而是讓 AI 在完全陌生的環境中探索、 即時學習目標、建立世界模型、並有效率地行動。 人類在這些環境中幾乎都能 100% 解決(通常幾分鐘內搞定)。 前沿大模型 的表現非常慘:Google Gemini 3.1 Pro Preview:最高約 0.37% OpenAI GPT-5.4 High:約 0.26% Anthropic Claude Opus 4.6 Max:約 0.25% xAI Grok 4.20(Reasoning 模式):0% 整體來說,目前所有公開測試的前沿 AI 分數都低於 1%,遠遠達不到「破關」的程度。 公開的 agent 嘗試(非官方大模型 leaderboard)在 ARC Prize 官方的 unverified live leaderboard(開放給大家提交 agent 的排行),目前最好的開源/自製 agent 分 數也只有 12.58%(StochasticGoose 團隊,完成 18 個 levels),其他大多在 3~8% 左 右。這些是專門為 ARC-AGI-3 設計的 agent,不是純靠大模型。 ARC Prize 2026 競賽現況總獎金高達 200 萬美元,其中 ARC-AGI-3 軌道的 Grand Prize(100%) 是 70 萬美元。 比賽剛開始沒多久(2026/3/25 啟動),還有好幾個月才到 milestone 和最終截止,目 前還在早期階段,沒有人接近 100%。 之前 2025 年的 ARC Prize(主要用 ARC-AGI-2)最高也只到 24% 左右,Grand Prize 同樣沒人領走。 簡單說,ARC-AGI-3 現在是目前最「未飽和」的 AGI 相關基準之一,專門用來測量 AI 在全新情境下的流體智能(fluid intelligence)和學習效率,目前 AI 跟人類的差距還 非常明顯。 -- grok整理 另外的參考說明:https://www.ithome.com.tw/news/174698 我也過了幾個小遊戲確定了自己還能被稱為人類 AI是不懂自主判斷遊戲目的遊戲機制的 至少現在還是啦 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.230.45 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1775469719.A.B1D.html ※ 編輯: error405 (114.36.230.45 臺灣), 04/06/2026 18:19:13

04/06 18:24, 1小時前 , 1F
還挺容易的 不知道語言模型是卡在什麼地方
04/06 18:24, 1F

04/06 18:30, 1小時前 , 2F
應該是語言模型沒有真正的形式和非形式邏輯能力吧
04/06 18:30, 2F
error405:轉錄至看板 AI_Art 04/06 18:34 error405:轉錄至看板 Little-Games 04/06 18:35

04/06 19:06, 43分鐘前 , 3F
YA 我比AI還聰明
04/06 19:06, 3F
文章代碼(AID): #1fquINiT (C_Chat)
文章代碼(AID): #1fquINiT (C_Chat)