Re: [閒聊] DeepSeek是不是真的很強?
這串一堆外行
首先 DeepSeek模型特點是
1. 訓練成本低
2. 推理成本低
先說訓練成本低
論文中說的訓練成本低 是用最後訓練出這個模型所花的GPU小時乘上費用小時得到的
實際有實作經驗的人就知道你要嘗試一個新訓練方式 甚至要提高訓練效率 都嘛還要做一
堆實驗 實際上花的成本遠高於此
DeepSeek真正佛心的地方是把他最後訓練所用的方法都寫在論文上了 後人可以少走彎路
但從現在AI進展的速度 這個訓練配方肯定也不是會被一直使用的東西 技術就是這樣一直
進步
結果被一堆媒體用政治的語言解釋 作者本人肯定也莫名奇妙
然後再說上述的“佛心” 也就是發表了論文 這幾年AI進步上一堆突破都嘛有發明論文
美國 歐洲都有 中國的論文也沒少過 怎麼今天突然被highlight 笑死
有問題的是那個天殺的OpenAI 就他都不發論文也不開源
而且前述模型訓練指的是DeepSeek V3 這次能力真的讓AI界驚艷的是Deepseek R2 也就是
基於前述V3模型做後訓練 真正有創造性的是這個 因為OpenAI幾個月前丟出來的o2模型沒
有論文
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.50.51 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1738406466.A.5F8.html
推
02/01 18:43,
1月前
, 1F
02/01 18:43, 1F
→
02/01 18:43,
1月前
, 2F
02/01 18:43, 2F
→
02/01 18:43,
1月前
, 3F
02/01 18:43, 3F
也就這幾年越來越誇張 openai 本身對ai貢獻還是很大 例如現在語音轉文字的標準還是o
penai開源的Whisper模型
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:45:26
推
02/01 18:45,
1月前
, 4F
02/01 18:45, 4F
沒錯 人家都開源了 真的沒啥好酸
但也不用太過神話 這個Deepseek的衝擊還是沒有當初的llama3和去年的mistral 來的大
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:47:23
→
02/01 18:46,
1月前
, 5F
02/01 18:46, 5F
→
02/01 18:46,
1月前
, 6F
02/01 18:46, 6F
推
02/01 18:46,
1月前
, 7F
02/01 18:46, 7F
推
02/01 18:47,
1月前
, 8F
02/01 18:47, 8F
→
02/01 18:47,
1月前
, 9F
02/01 18:47, 9F
→
02/01 18:47,
1月前
, 10F
02/01 18:47, 10F
→
02/01 18:47,
1月前
, 11F
02/01 18:47, 11F
如果是想討論顯卡相關
那就是另一篇了
這篇是講訓練 實際跟顯卡相關的是推理
→
02/01 18:47,
1月前
, 12F
02/01 18:47, 12F
→
02/01 18:47,
1月前
, 13F
02/01 18:47, 13F
→
02/01 18:47,
1月前
, 14F
02/01 18:47, 14F
推
02/01 18:48,
1月前
, 15F
02/01 18:48, 15F
阿里巴巴開源一堆模型也不是一天兩天的事 只能說有些東西是無國界的
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:48:54
推
02/01 18:48,
1月前
, 16F
02/01 18:48, 16F
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:50:05
→
02/01 18:49,
1月前
, 17F
02/01 18:49, 17F
→
02/01 18:49,
1月前
, 18F
02/01 18:49, 18F
推
02/01 18:50,
1月前
, 19F
02/01 18:50, 19F
推
02/01 18:50,
1月前
, 20F
02/01 18:50, 20F
推
02/01 18:51,
1月前
, 21F
02/01 18:51, 21F
推
02/01 18:51,
1月前
, 22F
02/01 18:51, 22F
→
02/01 18:51,
1月前
, 23F
02/01 18:51, 23F
推
02/01 18:52,
1月前
, 24F
02/01 18:52, 24F
→
02/01 18:52,
1月前
, 25F
02/01 18:52, 25F
推
02/01 18:52,
1月前
, 26F
02/01 18:52, 26F
→
02/01 18:53,
1月前
, 27F
02/01 18:53, 27F
→
02/01 18:53,
1月前
, 28F
02/01 18:53, 28F
推
02/01 18:55,
1月前
, 29F
02/01 18:55, 29F
推
02/01 18:55,
1月前
, 30F
02/01 18:55, 30F
偷資料是另外一回事
這裡指的偷資料是用openai api生成的回答來訓練
雖然以開源精神來說 我不覺得偷這種資料有多大的道德瑕疵
但如果有偷 然後還被抓到 那就只能乖乖走訴訟程序
→
02/01 18:55,
1月前
, 31F
02/01 18:55, 31F
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:59:54
推
02/01 18:56,
1月前
, 32F
02/01 18:56, 32F
還有 19 則推文
還有 3 段內文
→
02/01 19:14,
1月前
, 52F
02/01 19:14, 52F
→
02/01 19:14,
1月前
, 53F
02/01 19:14, 53F
好像真的很多人不知道偷資料是怎麼偷
稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs
來做測試資料集
看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:17:14
推
02/01 19:15,
1月前
, 54F
02/01 19:15, 54F
推
02/01 19:15,
1月前
, 55F
02/01 19:15, 55F
→
02/01 19:15,
1月前
, 56F
02/01 19:15, 56F
→
02/01 19:16,
1月前
, 57F
02/01 19:16, 57F
→
02/01 19:16,
1月前
, 58F
02/01 19:16, 58F
他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
至於拿openai 的輸出來重新訓練(蒸餾)是否可以告成功 我也不清楚 但據我所知官方
是禁止的 但還是有漏洞可鑽 (shareGPT之類的)
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:20:40
推
02/01 19:25,
1月前
, 59F
02/01 19:25, 59F
推
02/01 19:26,
1月前
, 60F
02/01 19:26, 60F
推
02/01 19:28,
1月前
, 61F
02/01 19:28, 61F
推
02/01 19:30,
1月前
, 62F
02/01 19:30, 62F
推
02/01 19:33,
1月前
, 63F
02/01 19:33, 63F
推
02/01 19:35,
1月前
, 64F
02/01 19:35, 64F
推
02/01 19:36,
1月前
, 65F
02/01 19:36, 65F
→
02/01 19:36,
1月前
, 66F
02/01 19:36, 66F
推
02/01 19:41,
1月前
, 67F
02/01 19:41, 67F
推
02/01 19:43,
1月前
, 68F
02/01 19:43, 68F
推
02/01 19:44,
1月前
, 69F
02/01 19:44, 69F
→
02/01 19:44,
1月前
, 70F
02/01 19:44, 70F
→
02/01 19:44,
1月前
, 71F
02/01 19:44, 71F
→
02/01 19:48,
1月前
, 72F
02/01 19:48, 72F
噓
02/01 19:52,
1月前
, 73F
02/01 19:52, 73F
推
02/01 19:54,
1月前
, 74F
02/01 19:54, 74F
推
02/01 19:55,
1月前
, 75F
02/01 19:55, 75F
→
02/01 20:04,
1月前
, 76F
02/01 20:04, 76F
→
02/01 20:04,
1月前
, 77F
02/01 20:04, 77F
推
02/01 20:06,
1月前
, 78F
02/01 20:06, 78F
→
02/01 20:06,
1月前
, 79F
02/01 20:06, 79F
噓
02/01 20:06,
1月前
, 80F
02/01 20:06, 80F
推
02/01 20:06,
1月前
, 81F
02/01 20:06, 81F
推
02/01 20:15,
1月前
, 82F
02/01 20:15, 82F
→
02/01 20:20,
1月前
, 83F
02/01 20:20, 83F
推
02/01 21:48,
1月前
, 84F
02/01 21:48, 84F
推
02/01 21:57,
1月前
, 85F
02/01 21:57, 85F
推
02/02 00:00,
1月前
, 86F
02/02 00:00, 86F
→
02/02 00:00,
1月前
, 87F
02/02 00:00, 87F
→
02/02 03:40,
1月前
, 88F
02/02 03:40, 88F
→
02/02 03:40,
1月前
, 89F
02/02 03:40, 89F
討論串 (同標題文章)
C_Chat 近期熱門文章
PTT動漫區 即時熱門文章