Re: [閒聊] Gemini的ACG超自信幻覺更嚴重了

看板C_Chat (希洽)作者 (社畜)時間1小時前 (2026/04/24 14:28), 編輯推噓18(18025)
留言43則, 17人參與, 44分鐘前最新討論串8/12 (看更多)
這就現在大模型的問題惹 模型是無狀態的,他的知識量只截止到訓練前 之後跑起來後,他都不會更新 特別是模型越來越大,知識量越來越多的情況下 模型會越來越自信 他覺得他是對的,就算有搜尋工具可以使用,他也傾向直接回答,而不是去用工具 反而一些參數比較小的模型 會更積極的去使用搜尋工具 但小模型的指令遵循性更差,理解力也不如大模型 所以更有可能胡言亂語,或是把搜尋結果與提示詞搞混 這之間的度還是很難把握的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.233.90.253 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1777012118.A.2C6.html

04/24 14:32, 1小時前 , 1F

04/24 14:33, 1小時前 , 2F
稍早刷到這個在講類似問題
04/24 14:33, 2F

04/24 14:33, 1小時前 , 3F
現在容易出現下面這種問題:
04/24 14:33, 3F

04/24 14:33, 1小時前 , 4F
使用者:你必須使用搜尋工具,根據找到的最新資料回答
04/24 14:33, 4F

04/24 14:34, 1小時前 , 5F
這個問題,不要只依賴你原本有的資訊
04/24 14:34, 5F

04/24 14:34, 1小時前 , 6F
AI:好的,我一定會使用搜尋工具,根據找到的最新資料
04/24 14:34, 6F

04/24 14:34, 1小時前 , 7F
來回答問題,關於你想知道的事情實際上是......
04/24 14:34, 7F

04/24 14:35, 1小時前 , 8F
Gemini的問題,我ChatGPT Plus用很久了就不像Gemini那樣
04/24 14:35, 8F

04/24 14:35, 1小時前 , 9F
然後你如果知道什麼叫做文字接龍,就能想像前面這句話
04/24 14:35, 9F

04/24 14:35, 1小時前 , 10F
的可靠性了
04/24 14:35, 10F

04/24 14:35, 1小時前 , 11F
當然你可以用訓練防止光說不練,但終究無法避免
04/24 14:35, 11F

04/24 14:41, 1小時前 , 12F
人也是一樣吧,如果你自信答案是正確的可能也會省去求證
04/24 14:41, 12F

04/24 14:41, 1小時前 , 13F
請查一下網路,關於balabala...我想問...
04/24 14:41, 13F

04/24 14:43, 1小時前 , 14F
你叫Gemini先做搜尋 就會抓到新資料了
04/24 14:43, 14F

04/24 14:46, 1小時前 , 15F
一堆prompt真的有比直接查快嗎==
04/24 14:46, 15F

04/24 14:48, 1小時前 , 16F
所以你可以依照需求建立不同系統題詞模板
04/24 14:48, 16F

04/24 14:48, 1小時前 , 17F
你可以叫他一定要搜尋,但各家模型的可靠度不太一樣
04/24 14:48, 17F

04/24 14:48, 1小時前 , 18F
然後身為一個情緒價值模型,他一定會承諾他有遵命
04/24 14:48, 18F

04/24 14:49, 1小時前 , 19F
跟他聊天打屁 和 寫專業報告 不會使用同一個操作模
04/24 14:49, 19F

04/24 14:49, 1小時前 , 20F
04/24 14:49, 20F

04/24 14:49, 1小時前 , 21F
現在要搜東西grok都比gemini好 常常提示要先搜尋了 結果
04/24 14:49, 21F

04/24 14:49, 1小時前 , 22F
第一次就是不愛搜 非要錯一次被指正才肯乖乖調用搜尋
04/24 14:49, 22F

04/24 14:51, 1小時前 , 23F
可以貼截圖打臉Gemini 請他檢討自己 至少可以看哪步有問題
04/24 14:51, 23F

04/24 14:52, 1小時前 , 24F
越來越像人了,我知道的事情幹嘛還要再搜尋
04/24 14:52, 24F

04/24 14:53, 1小時前 , 25F
打臉檢討環節就類似人工智慧教學中「讓我們看看AI有沒
04/24 14:53, 25F

04/24 14:53, 1小時前 , 26F
有自我反省能力」的環節了,這是很有意思的事情沒錯
04/24 14:53, 26F

04/24 14:53, 1小時前 , 27F
但你如果要做的事情很單純,你自己不是早就菇狗完了嗎
04/24 14:53, 27F

04/24 14:54, 1小時前 , 28F
Google關鍵字搜尋比較快,出來的結果不一定能直接用需
04/24 14:54, 28F

04/24 14:54, 1小時前 , 29F
要自己閱讀理解重構,AI回覆比較慢,但出來的結果可以
04/24 14:54, 29F

04/24 14:54, 1小時前 , 30F
直接用不過不一定正確,贏在不用動腦丟給AI重做就好
04/24 14:54, 30F

04/24 14:54, 1小時前 , 31F
檢討沒用,AI下次還敢
04/24 14:54, 31F

04/24 14:55, 1小時前 , 32F
用gemini就是要不停的質詢他,也是挺有意思的
04/24 14:55, 32F

04/24 14:56, 1小時前 , 33F
有時就省時間而已 丟個問題就先去做別的事情了
04/24 14:56, 33F

04/24 15:00, 1小時前 , 34F
整理出來的排版也比翻一堆網站來的好吸收
04/24 15:00, 34F

04/24 15:06, 56分鐘前 , 35F
AI老害
04/24 15:06, 35F

04/24 15:06, 56分鐘前 , 36F
昨天還前天遇到的一題
04/24 15:06, 36F

04/24 15:07, 55分鐘前 , 37F
gpt抓不到網址內容 直接猜答案www
04/24 15:07, 37F

04/24 15:09, 53分鐘前 , 38F
Gemini不一定 我最近會直接要他從指定網站撈資料而不是
04/24 15:09, 38F

04/24 15:09, 53分鐘前 , 39F
他自己不知哪來的結果 但她根本沒管
04/24 15:09, 39F

04/24 15:10, 52分鐘前 , 40F
"可以直接用不過不一定正確" <-- 這句話前後矛盾了吧=D=
04/24 15:10, 40F

04/24 15:14, 48分鐘前 , 41F
可以丟下去跑,但結果不一定對這樣
04/24 15:14, 41F

04/24 15:18, 44分鐘前 , 42F
用指令燒token的方式,正確率似乎可以隨著信用卡燃燒的
04/24 15:18, 42F

04/24 15:18, 44分鐘前 , 43F
速度提升
04/24 15:18, 43F
文章代碼(AID): #1fwmsMB6 (C_Chat)
討論串 (同標題文章)
文章代碼(AID): #1fwmsMB6 (C_Chat)