Re: [閒聊] 作了AI圖靈測試 結果公布與分析

看板C_Chat (希洽)作者 (提拉)時間2小時前 (2024/11/19 22:18), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
※ 引述《clothg34569 (提拉)》之銘言: : 先上連結 歡迎隨便轉載 : 20題版本 : https://forms.gle/2iTfiaCcwSSXWs6j8 : 30題版本 : https://forms.gle/hzXRtphBZSoDcQcG9 : 50題版本 : https://forms.gle/cp1EprygC6mKWrzq7 : 完整版: https://forms.gle/AYR2JiyJuxviebTp7 : AI圖片靈魂分辨測試 簡稱AI圖靈測試 : 來看看分不分的出是AI圖吧 : 完整版總共100題 因為長到我自己都受不了 : 所以有簡化的20 30 50題版本 : 其中20 30 50的題目都沒有重複 : 就之前AI群組裡聊天時聊到說AI玩久的到底好不好分AI : 所以自己來做一個表單玩玩看 : 目前成績: 幹爛各大AI群 真的有夠難== : 連我自己都沒滿分== : https://i.imgur.com/fpmrDgU.png
: 感想大概這樣 : 我覺得有幾張真的超過份.... : 目前看了一下後台最高是92分 也是出題者以外唯一一個有90的 題目如上 還沒玩的可以先玩看看再看結果分析 以下是這次題目結果的分析 https://i.imgur.com/yEifhRy.png
先上懶人重點 20題最多人做(1500) 結果呈現一個超級漂亮的鐘形曲線 扣掉100和0之後(大部分都是我測試時填的) 平均51 中位數50 標準差14.7 #丟硬幣機率參考 : 平均50 中位數50 標準差5 大概就是標準差大一點的丟硬幣(? 裡面大概有750個人輸給丟硬幣的平均分數 ....其實要我說的話找1500人丟硬幣好像也會得到差不多的結果 :) 另外 65分就贏過68%的人 80分就贏過95%的人 --- 以下各題組詳細分析 可以在這找到題目的圖片 懶得看密密麻麻的字可以往後跳到幾個懶人結果 AI: https://drive.google.com/drive/folders/1yEl_Ch-iQod-og-2JhvnP6Q3PAVageut?usp=sharing 真人 https://drive.google.com/drive/folders/1jMvmxZPwdgCwZsGciWkDBWZU8GxbuoRL?usp=sharing 20題 https://i.imgur.com/bD88cD6.png
30題 (滿分120) https://i.imgur.com/qXLcbMS.png
50題 https://i.imgur.com/EvsgF52.png
100題完整版 https://i.imgur.com/kcPmYWZ.png
總和分析 以作者分類 用錯誤率排序 https://i.imgur.com/U7yCTGn.png
懶人結果: 20題/完整版 AI錯誤率王者 : Kiwi 參考圖 https://i.imgur.com/LFRaVFp.jpeg
第二名 : st66612873 https://i.imgur.com/vn8BqK0.jpeg
另外我自己的總和也有60%錯誤率 :) 阿福基本上是送分 來當作判斷問券有效判斷 但也代表說在有送分題的情況下平均51.... 真人部分 水鈴鈴以71%錯誤率領先第二名的ke-ta (59%)與第三名的B銀河(57%) 另外B銀河如果只看めがみんクエスト的話錯誤率高達64% 這就是陷阱題的力量嗎....? -- 結論 這次AI測試的結果是大部分人比我想像中更難分出AI圖 即使是有玩AI的也一樣 未來說不定會考慮出第二彈...? 預計是中日英三版本 然後簡化成35題左右 與 100題完整版 再去掉一些送分題 然後盡量每個人的圖不要超過2張 當然還要有五張左右卡比 結尾再多個欄位給人填心得(如果有的話) 順便問問看 Google表單有辦法在看完分數後填回饋給作者嗎? 還是說只能在提交前填? ------ https://i.imgur.com/sg2uShY.jpeg
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.12.206 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1732025886.A.703.html
文章代碼(AID): #1dF9uUS3 (C_Chat)
文章代碼(AID): #1dF9uUS3 (C_Chat)