Re: [閒聊] DeepSeek是不是真的很強?

看板C_Chat (希洽)作者 (最是清楚哇她咩)時間2小時前 (2025/02/01 19:56), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串7/14 (看更多)
※ 引述《attacksoil (第三方程式)》之銘言: : → lanjack: 所以我說我看起來像是openai嗎?人家查出是怎麼偷的也沒 02/01 19:14 : → lanjack: 講,我會通靈是吧? 02/01 19:14 : → zwxyzxxx: 還有保密文件跟紙糊的一樣,對岸民間的隨便公司都能偷到 02/01 19:14 : 好像真的很多人不知道偷資料是怎麼偷 : : 稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs : 來做測試資料集 : : 看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係 : 推 Peurintesa: 確實 畢竟openai都沒版權意識了== 02/01 19:15 : 推 ZMTL: 其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾,所以OpenAI 02/01 19:15 : → ZMTL: 「指責」DS偷我蠻好奇出自哪裡的 02/01 19:15 : → ZMTL: 然後如果模型蒸餾侵權能被搞成,OpenAI比較需要擔心他們被美 02/01 19:16 : → ZMTL: 國一堆出版社告偷資料訓練模型會不會成 02/01 19:16 : 他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧 : 至於拿openai 的輸出來重新訓練(蒸餾)是否可以告成功 我也不清楚 但據我所知官方 : 是禁止的 但還是有漏洞可鑽 (shareGPT之類的) 一般人心目中的正常訓練大概是這樣 https://i.imgur.com/laCtwHt.png
1. 透過網路爬蟲拿到很多資料組 2. 把資料組送到AI架構進行訓練後得到一個LLM 我看到的「偷資料的指控」則是這樣 https://i.imgur.com/OgkvURx.png
1. DS有使用ChatGPT來生成一些回答 2. DS把ChatGPT生成的回答做成新的訓練資料,用在訓練DS上面 所以這裡所謂的「被偷出來的東西」,是那些ChatGPT的回答 ...這個是著作權該保護的東西嗎? 那ChatGPT在當網路爬蟲的時候怎麼就很ok? 我記得當初最有利的辯護之一是: 如果訓練的資料庫的訓練素材全部都要付錢, 那以後訓練模型就只有超有錢的集團能做,其他人都吃屎。 這辯護論述也能用在DS上吧? -- 角卷綿芽給予炭治郎的建議 https://i.imgur.com/0mPdESk.jpg
https://i.imgur.com/Ts4dBjy.jpg
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.45.195.96 (美國) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1738411015.A.D1F.html
文章代碼(AID): #1ddWm7qV (C_Chat)
討論串 (同標題文章)
文章代碼(AID): #1ddWm7qV (C_Chat)