Re: [閒聊] 所以付費版GPT查遊戲攻略ok嗎

看板C_Chat (希洽)作者 (最是清楚哇她咩)時間1月前 (2026/05/04 14:13), 1月前編輯推噓19(20158)
留言79則, 22人參與, 1月前最新討論串2/3 (看更多)
※ 引述《area223672 (JOJO的奇妙比喻)》之銘言: : 之前都用gemini問東西也是幻覺嚴重 : 那麼最新的5.5模型 : 叫他查攻略 : 例如蔚藍檔案國際服競技大賽前五十名芒打隊伍推薦 : 他會查給我正確資訊嗎 這個問題會出現, 我不禁懷疑是不是因為各大家AI公司急著變現所以刻意避談LLM的性質 LLM所給出來的結果不是確定性的 (deterministic), 也就是你現在問跟等一下問或者稍微用不同的方式問同樣問題, 都有可能出現不一樣的結果。 我目前也沒看過哪家公司的LLM保證你問同一個問題100遍結果保證都一樣。 什麼樣的結果是確定性的? 你用python的numpy函式庫去算 sin(0.368) , 除非是機器被強力宇宙射線打到, 不然不管執行幾億次,結果都會是 0.35975005528622994 那些標準函式庫以及寫在數學課本上的定理, 才是所謂的「可靠的、不建議一般人去質疑」的結果。 而基於這個認知,就應該能理解「他會查給我正確資訊嗎」不是一個合理的疑問; 該問的是「我該用什麼樣的方式驗證LLM給的資訊」 -- 「魔法少女不能對哭泣的孩子坐視不管」 ~魔法少女 春菜 https://i.imgur.com/514nBjt.jpg
https://i.imgur.com/mVmBqTu.jpg
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.45.195.96 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1777875210.A.BD7.html

05/04 14:17, 1月前 , 1F
推正確觀念
05/04 14:17, 1F

05/04 14:17, 1月前 , 2F
給他~~~逼母~~~~~
05/04 14:17, 2F

05/04 14:17, 1月前 , 3F
05/04 14:17, 3F

05/04 14:19, 1月前 , 4F
問題在怎麼用啊,你可以配合周邊工具讓他只做思考的工作
05/04 14:19, 4F

05/04 14:19, 1月前 , 5F
可以極好地約束他生成的結果
05/04 14:19, 5F

05/04 14:19, 1月前 , 6F
就文字接龍擲骰子
05/04 14:19, 6F

05/04 14:19, 1月前 , 7F
就是你說的要可驗證才有價值
05/04 14:19, 7F

05/04 14:20, 1月前 , 8F
看到很多人還拿生成式AI問數學加法比大小就有趣
05/04 14:20, 8F

05/04 14:20, 1月前 , 9F
我都叫AI寫程式跑XD
05/04 14:20, 9F

05/04 14:20, 1月前 , 10F
好的 建議以後都不要問問題 因為你無法確認問題的正確性
05/04 14:20, 10F

05/04 14:20, 1月前 , 11F
我講白了,同個事情給同個人去做,產出也不一定相同
05/04 14:20, 11F

05/04 14:20, 1月前 , 12F
tool很重要
05/04 14:20, 12F

05/04 14:21, 1月前 , 13F
你也要有能力驗證他的結果
05/04 14:21, 13F

05/04 14:21, 1月前 , 14F
所以現在才在玩駕馭工程,用流程限制死AI發揮
05/04 14:21, 14F

05/04 14:21, 1月前 , 15F
產出不一定相同,結果是正確的就好
05/04 14:21, 15F

05/04 14:21, 1月前 , 16F
所以要能夠驗證結果
05/04 14:21, 16F

05/04 14:21, 1月前 , 17F
有些AI都不給源網站,也只能問問當參考
05/04 14:21, 17F
其他我不確定 Gemini 和 ChatGPT 都會給產生回應的訊息來源 光是有這些,驗證起來已經算是輕鬆了

05/04 14:22, 1月前 , 18F
gpt可以打開直接看思考過程跟參考資料吧 gemini好像不
05/04 14:22, 18F

05/04 14:22, 1月前 , 19F
不要問AI任何知識性的問題,知識性問題都是不可靠的
05/04 14:22, 19F
倒也不是這樣的 相較於像Google 或 Bing 這種傳統的搜尋引擎, LLM 進行模糊比對的效率比較高。 LLM不一定要給很正確的答案,但只要他能給有用的引源, 對問問題的使用者來說就是有用的─你最少會知道怎麼樣問更有效率

05/04 14:22, 1月前 , 20F
能看參考資料
05/04 14:22, 20F

05/04 14:23, 1月前 , 21F
除非你用研究模式
05/04 14:23, 21F

05/04 14:24, 1月前 , 22F
Gemini請他提供的參考資料常常連連結都打不開
05/04 14:24, 22F

05/04 14:24, 1月前 , 23F
我是用PRO 不是快捷
05/04 14:24, 23F

05/04 14:24, 1月前 , 24F
LLM盡可能回答你的問題(瞎掰)
05/04 14:24, 24F
這也無妨,重要的是他能給出什麼樣的訊息來源

05/04 14:24, 1月前 , 25F
當然Deep Research 就會有很清楚的參考來源沒錯
05/04 14:24, 25F

05/04 14:25, 1月前 , 26F
知識型問題,最好的方法還是NotebookLM
05/04 14:25, 26F

05/04 14:25, 1月前 , 27F
來源都是你提供的資料
05/04 14:25, 27F

05/04 14:26, 1月前 , 28F
看看會不會不用要求 以後回覆完都付網址
05/04 14:26, 28F

05/04 14:26, 1月前 , 29F
知識型問題不是問估狗查維基就好....
05/04 14:26, 29F

05/04 14:27, 1月前 , 30F
那是AI去搜尋後得出結果,本質是AI的理解能力而不是AI的
05/04 14:27, 30F

05/04 14:27, 1月前 , 31F
記憶能力,LLM的架構注定任何知識性的問題都不保証正確
05/04 14:27, 31F
我不需要LLM保證他的結果一定正確啊 但LLM搜尋的過程會給出訊息來源, 我看了訊息來源之後,不就能驗證他的推論了?

05/04 14:27, 1月前 , 32F
如果開始了解人類是怎麼思考的,就不會覺得LLM沒用了
05/04 14:27, 32F

05/04 14:27, 1月前 , 33F
連自己不知道什麼都不知道的時候問AI 再從裡面找關鍵字查
05/04 14:27, 33F

05/04 14:28, 1月前 , 34F
有正確答案的問題 還叫他去海搜網路上錯誤答案風向雞帶風
05/04 14:28, 34F

05/04 14:28, 1月前 , 35F
我的意思是人類也不是什麼很有邏輯的生物
05/04 14:28, 35F

05/04 14:28, 1月前 , 36F
至少LLM他會標註來源讓你好去對照原始資料
05/04 14:28, 36F

05/04 14:28, 1月前 , 37F
下水道一堆髒東西的地方撈幹嘛
05/04 14:28, 37F

05/04 14:29, 1月前 , 38F
推觀念正確,一堆人把ai當成google用,以前還有Let Me Goo
05/04 14:29, 38F

05/04 14:29, 1月前 , 39F
gle That For You的笑話,現在看到這些人真的笑不出來
05/04 14:29, 39F

05/04 14:29, 1月前 , 40F
看情況吧 像原PO問的類似"最強隊伍" 這種也沒甚麼100%的
05/04 14:29, 40F

05/04 14:29, 1月前 , 41F
標準答案 對新手而言AI協助判斷就很有用
05/04 14:29, 41F

05/04 14:30, 1月前 , 42F
完全沒概念的問題確實可以問一下llm然後自己去查,這給
05/04 14:30, 42F

05/04 14:30, 1月前 , 43F
我蠻多幫助的
05/04 14:30, 43F

05/04 14:30, 1月前 , 44F
文獻的證據等級:
05/04 14:30, 44F

05/04 14:31, 1月前 , 45F
例如說我想要買某產品,有怎樣的需求,我應該去哪裡買什
05/04 14:31, 45F

05/04 14:31, 1月前 , 46F
麼規格有什麼差別這些東西,其實llm可以給出不錯的參考
05/04 14:31, 46F

05/04 14:33, 1月前 , 47F
AI適合問什麼類型的問題也是個學問
05/04 14:33, 47F
我覺得LLM什麼問題都可以問啊 有什麼不適合問的嗎?

05/04 14:33, 1月前 , 48F
把AI當GOOGLE也不是不行
05/04 14:33, 48F

05/04 14:34, 1月前 , 49F
google搜尋就內建AI MODE
05/04 14:34, 49F

05/04 14:34, 1月前 , 50F
只是常常唬爛
05/04 14:34, 50F

05/04 14:35, 1月前 , 51F
內建的AI有時候會直接被他寫出來的來源打臉,還蠻好
05/04 14:35, 51F

05/04 14:35, 1月前 , 52F
笑的
05/04 14:35, 52F

05/04 14:35, 1月前 , 53F
不適合問1+1=2
05/04 14:35, 53F

05/04 14:35, 1月前 , 54F
不適合問開車去加油站加油,五分鐘,要開車還是走路
05/04 14:35, 54F

05/04 14:59, 1月前 , 55F
它就是統計學啦
05/04 14:59, 55F

05/04 15:00, 1月前 , 56F
你不如叫ai做
05/04 15:00, 56F

05/04 15:00, 1月前 , 57F
routine的事比較好
05/04 15:00, 57F

05/04 15:01, 1月前 , 58F
大家一直噓gemini,我用過gpt也是會出現幻覺啊
05/04 15:01, 58F

05/04 15:07, 1月前 , 59F
大家嘴G不是全世界只有他會幻覺的意思
05/04 15:07, 59F

05/04 15:32, 1月前 , 60F
驗證不難啊,叫它提供資料來源,這比一堆空口白話唬爛的
05/04 15:32, 60F

05/04 15:32, 1月前 , 61F
強多了,至少AI不會拒絕提供
05/04 15:32, 61F

05/04 15:36, 1月前 , 62F
經驗夠多就知道人與人之間的對談根本充滿唬爛
05/04 15:36, 62F

05/04 16:25, 1月前 , 63F
觀念正確
05/04 16:25, 63F

05/04 16:38, 1月前 , 64F
直接限定他只找論壇資訊就好,可以過濾一堆內容農場的垃
05/04 16:38, 64F

05/04 16:38, 1月前 , 65F
圾文,只能說還是一堆人不會用
05/04 16:38, 65F

05/04 16:57, 1月前 , 66F
的確是沒有確定性,但人類回答問題也沒有確定性阿,問
05/04 16:57, 66F

05/04 16:57, 1月前 , 67F
題是在產生“錯誤答案”的機率有多少
05/04 16:57, 67F

05/04 17:01, 1月前 , 68F
LLM生成回答基本上是在做文字接龍,比如「太陽從東邊升
05/04 17:01, 68F

05/04 17:01, 1月前 , 69F
起」和「日出是在東方」,在定義上是不重複不同的回答
05/04 17:01, 69F

05/04 17:01, 1月前 , 70F
,但兩個意思是相同的
05/04 17:01, 70F
那個 該問的問題我已經在文章寫了, 就是「如何驗證一個回應的正確性」, 只要錯誤的機率不是0%,你就不可能去迴避這個問題 所以另外一個有意義的問題是:回應的正確性是否是100% 不過這個是給 理論 和 函式庫 的問題。

05/04 17:03, 1月前 , 71F
你問人一加一等於多少,在頭被打到還是口齒不清的時候
05/04 17:03, 71F

05/04 17:03, 1月前 , 72F
也是可能得到錯誤回答,那問LLM呢?恐怕給出「錯誤答案
05/04 17:03, 72F

05/04 17:03, 1月前 , 73F
」的機率一樣低到可以忽略
05/04 17:03, 73F
※ 編輯: arrenwu (98.45.195.96 美國), 05/04/2026 17:04:44

05/04 17:06, 1月前 , 74F
而且實際上現在的主流AI工具,都可以要求它們去套用你
05/04 17:06, 74F

05/04 17:06, 1月前 , 75F
說的函式庫去做運算,也可以提供計算程式碼讓使用者去
05/04 17:06, 75F

05/04 17:06, 1月前 , 76F
驗證
05/04 17:06, 76F

05/04 17:11, 1月前 , 77F
生成AI給的答案越來越像人類助理,他就像人類一樣會出
05/04 17:11, 77F

05/04 17:11, 1月前 , 78F
錯,但你也可以求他去用計算機之類信賴度高的工具,不
05/04 17:11, 78F

05/04 17:11, 1月前 , 79F
過也像人類一樣,會不會按錯按鍵就是另外一回事了
05/04 17:11, 79F
文章代碼(AID): #1f-3aAlN (C_Chat)
文章代碼(AID): #1f-3aAlN (C_Chat)