Re: [閒聊] 讓AI判斷野菇能不能吃,結果中毒
※ 引述《Rimowa (德國品質)》之銘言:
: 我想現在AI遇到最大的問題有兩個
: 一個是很多人提的 AI講錯也不用扛責 所以講錯也不會怎樣
: 另一個是因為AI怎麼樣都會掰出一套說法給你
: 如果相信了就可能有這次的吃毒菇案件
: 但如果還是懷疑堅持不信要自己求證 那又何必問AI?
: 可是很多場景 是沒有專業人士的 或是說 若有專業人士 又何必問AI?
這中間有個盲點就是:人並不是只有 專業人士 或 超級外行
還有一種是 入門水平 或 中間偏低
比如我們來看一個 2024 指定科目考試數學甲的問題:
一遊戲廠商將舉辦抽獎活動,
廠商公告每次抽獎需使用掉一個代幣,
且每次抽獎的中獎機率皆為0.1。
某甲決定先存若干個代幣,
並在活動開始後進行抽獎,
直到用完所有代幣才停止。
下列五個選項:
(1) 某甲中獎一次所需要抽獎次數的期望值為10
(2) 某甲抽獎兩次就中獎一次以上的機率為0.2
(3) 某甲抽獎10次都沒中獎的機率小於抽獎1次就中獎的機率
(4) 某甲至少要存22個代幣,才能保證中獎的機率大於0.9
(5) 某甲只要存足夠多的代幣,就可以保證中獎的機率為1
請問哪幾個選項是正確的?
這問題稱不上很難,但是要具備一定程度訓練和熟練度的人,
才能解這問題。
但如果你用 Gemini 3 Pro去問這問題,
可以得到下面的結果:
============== Gemini 開始 ================
這是一個經典的機率與期望值問題。
我們逐一分析這五個選項,找出正確的答案。
基本設定
單次中獎機率:p = 0.1
單次沒中獎機率:1 - p = 0.9
抽獎次數(代幣數):n
選項分析
(1) 某甲中獎一次所需要抽獎次數的期望值為 10
判定:正確
分析:這是「幾何分佈」(Geometric Distribution)的概念,即計算直到第一次成功所需的試驗次數。
計算:期望值 E = 1/p
代入 p=0.1,則 E = 1/0.1 = 10
這意味著平均來說,確實需要抽 10 次才會中獎一次。
(2) 某甲抽獎兩次就中獎一次以上的機率為 0.2
判定:錯誤
分析:「中獎一次以上」的機率 = 1 - 「兩次都沒中」。
計算:
兩次都沒中的機率:0.9 * 0.9 = 0.81
至少中一次的機率:1 - 0.81 = 0.19
註:此選項的陷阱在於直接將兩次機率相加 ($0.1 + 0.1$),這是錯誤的算法。
(3) 某甲抽獎 10 次都沒中獎的機率小於抽獎 1 次就中獎的機率
判定:錯誤
分析:我們需要比較 10次全槓龜 與 1次就中 的機率
計算:
抽 10 次都沒中的機率:0.9^10 ~= 0.3487
抽 1 次就中獎的機率:0.1
顯然 0.3487 > 0.1
(4) 某甲至少要存 22 個代幣,才能保證中獎的機率大於 0.9
判定:正確
分析:我們要找出最小的整數 n,使得「至少中一次」的機率 > 0.9。
1 - (0.9)^n > 0.9
計算:
(0.9)^n < 0.1
兩邊取對數(log):
n > (-1)/(-0.04576) ~= 21.85
因為 n 必須是整數,故 n 至少要為 22。
(5) 某甲只要存足夠多的代幣,就可以保證中獎的機率為 1
判定:錯誤
分析:雖然隨著次數增加,中獎機率會無限趨近於 1,但在有限的次數內,它永遠不會「等於」1。
數學上,1 - (0.9)^n 永遠小於 1,只要 n 是有限數值,就存在「全部沒中」的微小可能性。
正確的選項是
(1) 某甲中獎一次所需要抽獎次數的期望值為10
(4) 某甲至少要存22個代幣,才能保證中獎的機率大於0.9
============== Gemini 結束 ================
我幫大家確認過了,這結果沒問題。
顯然,有了Gemini提供的過程後,即便是程度較差的人,
也可以解決這個問題。
因為現在只要能看得懂過程即可。
但這並不表示Gemini說正確的選項是(1),(4),使用者就直接買單,
因為Gemini也可能是錯的。
所以這結果,對數學麻瓜是沒用的。
我本人對於「有了Copilot後不用學程式」或
「AI解題力達到奧數金牌,以後不用學數學」
是相當不以為然的。
反而是有了這些工具之後,人類比起從前更應該學這些東西。
只要學一點點,就可以獲得巨大成果,何樂而不為呢 :D
@tree_isu
https://x.com/tree_isu/status/1990543628004176001/photo/1
https://pbs.twimg.com/media/G5_U4RNacAARxLG.jpg


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.45.195.96 (美國)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1763864726.A.283.html
推
11/23 10:28,
1月前
, 1F
11/23 10:28, 1F
→
11/23 10:33,
1月前
, 2F
11/23 10:33, 2F
→
11/23 10:34,
1月前
, 3F
11/23 10:34, 3F
→
11/23 10:34,
1月前
, 4F
11/23 10:34, 4F
所以這問題在我看起來比較像是 風氣問題。
如果LLM成為標準的工具,
那我認為教學機關必須要堅定表明「AI講的=我不知道」的概念
→
11/23 10:35,
1月前
, 5F
11/23 10:35, 5F
→
11/23 10:36,
1月前
, 6F
11/23 10:36, 6F
我最近超熱中這方面應用 這次很認真地打算學習RAG/Agent之類的知識XD
現在程式輔助工具解決很多以往我感到非常困擾的問題
推
11/23 10:43,
1月前
, 7F
11/23 10:43, 7F
→
11/23 10:43,
1月前
, 8F
11/23 10:43, 8F
推
11/23 10:46,
1月前
, 9F
11/23 10:46, 9F
推
11/23 11:06,
1月前
, 10F
11/23 11:06, 10F
→
11/23 11:06,
1月前
, 11F
11/23 11:06, 11F
→
11/23 11:25,
1月前
, 12F
11/23 11:25, 12F
→
11/23 11:25,
1月前
, 13F
11/23 11:25, 13F
→
11/23 11:25,
1月前
, 14F
11/23 11:25, 14F
→
11/23 11:25,
1月前
, 15F
11/23 11:25, 15F
→
11/23 11:26,
1月前
, 16F
11/23 11:26, 16F
所以問題是我上一篇講的啊,
問題在於「因為一些因素 人有意識地選擇盲信」
→
11/23 11:26,
1月前
, 17F
11/23 11:26, 17F
→
11/23 11:27,
1月前
, 18F
11/23 11:27, 18F
→
11/23 11:28,
1月前
, 19F
11/23 11:28, 19F
這跟無知沒什麼關係啊,比如Gemini很大方地在服務下面寫著
"Gemini can make mistakes, so double-check it"
你沒有double-check直接使用結論,這就是盲信啊
這邊沒有任何未知的訊息
推
11/23 11:29,
1月前
, 20F
11/23 11:29, 20F
→
11/23 11:29,
1月前
, 21F
11/23 11:29, 21F
推
11/23 11:30,
1月前
, 22F
11/23 11:30, 22F
→
11/23 11:31,
1月前
, 23F
11/23 11:31, 23F
→
11/23 11:31,
1月前
, 24F
11/23 11:31, 24F
→
11/23 11:31,
1月前
, 25F
11/23 11:31, 25F
這個不是服務條款啊,就直接寫在prompt旁邊而已。
而且LLM會出錯這知道的人老早很多了不是嗎?
→
11/23 11:32,
1月前
, 26F
11/23 11:32, 26F
→
11/23 11:33,
1月前
, 27F
11/23 11:33, 27F
→
11/23 11:33,
1月前
, 28F
11/23 11:33, 28F
推
11/23 11:34,
1月前
, 29F
11/23 11:34, 29F
這個就是 mouscat 提到的類似內容農場的問題。
其實學校機關在很早期的階段就給出解法。
問題出在實作學術標準的生活方式很多人不喜歡
→
11/23 11:34,
1月前
, 30F
11/23 11:34, 30F
→
11/23 11:34,
1月前
, 31F
11/23 11:34, 31F
→
11/23 11:35,
1月前
, 32F
11/23 11:35, 32F
「忽略警語」這個是另外一種性質的問題
這邊的問題,你可以嘗試去長輩群組裡面,
對著他們的農場文,提出「這個訊息沒有可靠的引源,不應該相信」的論點,
看看他們的反應長啥樣
我非常確信這是因為社會因素導致的盲信選擇
※ 編輯: arrenwu (98.45.195.96 美國), 11/23/2025 11:38:13
推
11/23 12:08,
1月前
, 33F
11/23 12:08, 33F
→
11/23 12:08,
1月前
, 34F
11/23 12:08, 34F
→
11/23 12:08,
1月前
, 35F
11/23 12:08, 35F
推
11/23 12:09,
1月前
, 36F
11/23 12:09, 36F
→
11/23 12:09,
1月前
, 37F
11/23 12:09, 37F
→
11/23 12:41,
1月前
, 38F
11/23 12:41, 38F
→
11/23 12:41,
1月前
, 39F
11/23 12:41, 39F
→
11/23 12:41,
1月前
, 40F
11/23 12:41, 40F
→
11/23 13:44,
1月前
, 41F
11/23 13:44, 41F
→
11/23 13:44,
1月前
, 42F
11/23 13:44, 42F
→
11/23 17:28,
1月前
, 43F
11/23 17:28, 43F
→
11/23 19:49,
1月前
, 44F
11/23 19:49, 44F
討論串 (同標題文章)
完整討論串 (本文為第 7 之 8 篇):
C_Chat 近期熱門文章
PTT動漫區 即時熱門文章