Re: [閒聊] 作了AI圖靈測試結果公布與分析

看板C_Chat (希洽)作者clothg34569 (提拉)時間2小時前 (2024/11/19 22:18)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串1/1

※ 引述《clothg34569 (提拉)》之銘言： : 先上連結歡迎隨便轉載 : 20題版本 : https://forms.gle/2iTfiaCcwSSXWs6j8 : 30題版本 : https://forms.gle/hzXRtphBZSoDcQcG9 : 50題版本 : https://forms.gle/cp1EprygC6mKWrzq7 : 完整版: https://forms.gle/AYR2JiyJuxviebTp7 : AI圖片靈魂分辨測試簡稱AI圖靈測試 : 來看看分不分的出是AI圖吧 : 完整版總共100題因為長到我自己都受不了 : 所以有簡化的20 30 50題版本 : 其中20 30 50的題目都沒有重複 : 就之前AI群組裡聊天時聊到說AI玩久的到底好不好分AI : 所以自己來做一個表單玩玩看 : 目前成績: 幹爛各大AI群真的有夠難== : 連我自己都沒滿分== : https://i.imgur.com/fpmrDgU.png

: 感想大概這樣 : 我覺得有幾張真的超過份.... : 目前看了一下後台最高是92分也是出題者以外唯一一個有90的題目如上還沒玩的可以先玩看看再看結果分析以下是這次題目結果的分析 https://i.imgur.com/yEifhRy.png

先上懶人重點 20題最多人做(1500) 結果呈現一個超級漂亮的鐘形曲線扣掉100和0之後(大部分都是我測試時填的) 平均51 中位數50 標準差14.7 #丟硬幣機率參考 : 平均50 中位數50 標準差5 大概就是標準差大一點的丟硬幣(? 裡面大概有750個人輸給丟硬幣的平均分數 ....其實要我說的話找1500人丟硬幣好像也會得到差不多的結果 :) 另外 65分就贏過68%的人 80分就贏過95%的人 --- 以下各題組詳細分析可以在這找到題目的圖片懶得看密密麻麻的字可以往後跳到幾個懶人結果 AI: https://drive.google.com/drive/folders/1yEl_Ch-iQod-og-2JhvnP6Q3PAVageut?usp=sharing 真人 https://drive.google.com/drive/folders/1jMvmxZPwdgCwZsGciWkDBWZU8GxbuoRL?usp=sharing 20題 https://i.imgur.com/bD88cD6.png

30題 (滿分120) https://i.imgur.com/qXLcbMS.png

50題 https://i.imgur.com/EvsgF52.png

100題完整版 https://i.imgur.com/kcPmYWZ.png

總和分析以作者分類用錯誤率排序 https://i.imgur.com/U7yCTGn.png

懶人結果: 20題/完整版 AI錯誤率王者 : Kiwi 參考圖 https://i.imgur.com/LFRaVFp.jpeg

第二名 : st66612873 https://i.imgur.com/vn8BqK0.jpeg

另外我自己的總和也有60%錯誤率 :) 阿福基本上是送分來當作判斷問券有效判斷但也代表說在有送分題的情況下平均51.... 真人部分水鈴鈴以71%錯誤率領先第二名的ke-ta (59%)與第三名的B銀河(57%) 另外B銀河如果只看めがみんクエスト的話錯誤率高達64% 這就是陷阱題的力量嗎....? -- 結論這次AI測試的結果是大部分人比我想像中更難分出AI圖即使是有玩AI的也一樣未來說不定會考慮出第二彈...? 預計是中日英三版本然後簡化成35題左右與 100題完整版再去掉一些送分題然後盡量每個人的圖不要超過2張當然還要有五張左右卡比結尾再多個欄位給人填心得(如果有的話) 順便問問看 Google表單有辦法在看完分數後填回饋給作者嗎? 還是說只能在提交前填? ------ https://i.imgur.com/sg2uShY.jpeg