Re: [閒聊] DeepSeek是不是真的很強?
這串一堆外行
首先 DeepSeek模型特點是
1. 訓練成本低
2. 推理成本低
先說訓練成本低
論文中說的訓練成本低 是用最後訓練出這個模型所花的GPU小時乘上費用小時得到的
實際有實作經驗的人就知道你要嘗試一個新訓練方式 甚至要提高訓練效率 都嘛還要做一
堆實驗 實際上花的成本遠高於此
DeepSeek真正佛心的地方是把他最後訓練所用的方法都寫在論文上了 後人可以少走彎路
但從現在AI進展的速度 這個訓練配方肯定也不是會被一直使用的東西 技術就是這樣一直
進步
結果被一堆媒體用政治的語言解釋 作者本人肯定也莫名奇妙
然後再說上述的“佛心” 也就是發表了論文 這幾年AI進步上一堆突破都嘛有發明論文
美國 歐洲都有 中國的論文也沒少過 怎麼今天突然被highlight 笑死
有問題的是那個天殺的OpenAI 就他都不發論文也不開源
而且前述模型訓練指的是DeepSeek V3 這次能力真的讓AI界驚艷的是Deepseek R2 也就是
基於前述V3模型做後訓練 真正有創造性的是這個 因為OpenAI幾個月前丟出來的o2模型沒
有論文
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.50.51 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1738406466.A.5F8.html
推
02/01 18:43,
4小時前
, 1F
02/01 18:43, 1F
→
02/01 18:43,
4小時前
, 2F
02/01 18:43, 2F
→
02/01 18:43,
4小時前
, 3F
02/01 18:43, 3F
也就這幾年越來越誇張 openai 本身對ai貢獻還是很大 例如現在語音轉文字的標準還是o
penai開源的Whisper模型
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:45:26
推
02/01 18:45,
4小時前
, 4F
02/01 18:45, 4F
沒錯 人家都開源了 真的沒啥好酸
但也不用太過神話 這個Deepseek的衝擊還是沒有當初的llama3和去年的mistral 來的大
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:47:23
→
02/01 18:46,
4小時前
, 5F
02/01 18:46, 5F
→
02/01 18:46,
4小時前
, 6F
02/01 18:46, 6F
推
02/01 18:46,
4小時前
, 7F
02/01 18:46, 7F
推
02/01 18:47,
4小時前
, 8F
02/01 18:47, 8F
→
02/01 18:47,
4小時前
, 9F
02/01 18:47, 9F
→
02/01 18:47,
4小時前
, 10F
02/01 18:47, 10F
→
02/01 18:47,
4小時前
, 11F
02/01 18:47, 11F
如果是想討論顯卡相關
那就是另一篇了
這篇是講訓練 實際跟顯卡相關的是推理
→
02/01 18:47,
4小時前
, 12F
02/01 18:47, 12F
→
02/01 18:47,
4小時前
, 13F
02/01 18:47, 13F
→
02/01 18:47,
4小時前
, 14F
02/01 18:47, 14F
推
02/01 18:48,
4小時前
, 15F
02/01 18:48, 15F
阿里巴巴開源一堆模型也不是一天兩天的事 只能說有些東西是無國界的
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:48:54
推
02/01 18:48,
4小時前
, 16F
02/01 18:48, 16F
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:50:05
→
02/01 18:49,
4小時前
, 17F
02/01 18:49, 17F
→
02/01 18:49,
4小時前
, 18F
02/01 18:49, 18F
推
02/01 18:50,
4小時前
, 19F
02/01 18:50, 19F
推
02/01 18:50,
4小時前
, 20F
02/01 18:50, 20F
推
02/01 18:51,
4小時前
, 21F
02/01 18:51, 21F
推
02/01 18:51,
4小時前
, 22F
02/01 18:51, 22F
→
02/01 18:51,
4小時前
, 23F
02/01 18:51, 23F
推
02/01 18:52,
4小時前
, 24F
02/01 18:52, 24F
→
02/01 18:52,
4小時前
, 25F
02/01 18:52, 25F
推
02/01 18:52,
4小時前
, 26F
02/01 18:52, 26F
→
02/01 18:53,
4小時前
, 27F
02/01 18:53, 27F
→
02/01 18:53,
4小時前
, 28F
02/01 18:53, 28F
推
02/01 18:55,
4小時前
, 29F
02/01 18:55, 29F
推
02/01 18:55,
4小時前
, 30F
02/01 18:55, 30F
偷資料是另外一回事
這裡指的偷資料是用openai api生成的回答來訓練
雖然以開源精神來說 我不覺得偷這種資料有多大的道德瑕疵
但如果有偷 然後還被抓到 那就只能乖乖走訴訟程序
→
02/01 18:55,
4小時前
, 31F
02/01 18:55, 31F
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:59:54
推
02/01 18:56,
4小時前
, 32F
02/01 18:56, 32F
→
02/01 18:56,
4小時前
, 33F
02/01 18:56, 33F
→
02/01 18:57,
4小時前
, 34F
02/01 18:57, 34F
推
02/01 18:58,
4小時前
, 35F
02/01 18:58, 35F
推
02/01 18:59,
3小時前
, 36F
02/01 18:59, 36F
模型有 huggingface可以下載完整MOE
但訓練腳本有沒有開源我沒注意
推
02/01 18:59,
3小時前
, 37F
02/01 18:59, 37F
→
02/01 18:59,
3小時前
, 38F
02/01 18:59, 38F
→
02/01 18:59,
3小時前
, 39F
02/01 18:59, 39F
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:00:53
推
02/01 19:00,
3小時前
, 40F
02/01 19:00, 40F
→
02/01 19:00,
3小時前
, 41F
02/01 19:00, 41F
→
02/01 19:03,
3小時前
, 42F
02/01 19:03, 42F
→
02/01 19:03,
3小時前
, 43F
02/01 19:03, 43F
→
02/01 19:04,
3小時前
, 44F
02/01 19:04, 44F
木馬真的不用擔心
要擔心的是alignment 的問題
但據我所知 現在技術對alignment的控制力暫時還沒那麼強 應該還可以不太需要擔心...
吧
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:07:39
推
02/01 19:07,
3小時前
, 45F
02/01 19:07, 45F
→
02/01 19:07,
3小時前
, 46F
02/01 19:07, 46F
→
02/01 19:11,
3小時前
, 47F
02/01 19:11, 47F
推
02/01 19:11,
3小時前
, 48F
02/01 19:11, 48F
推
02/01 19:12,
3小時前
, 49F
02/01 19:12, 49F
→
02/01 19:13,
3小時前
, 50F
02/01 19:13, 50F
→
02/01 19:14,
3小時前
, 51F
02/01 19:14, 51F
→
02/01 19:14,
3小時前
, 52F
02/01 19:14, 52F
→
02/01 19:14,
3小時前
, 53F
02/01 19:14, 53F
好像真的很多人不知道偷資料是怎麼偷
稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs
來做測試資料集
看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:17:14
推
02/01 19:15,
3小時前
, 54F
02/01 19:15, 54F
推
02/01 19:15,
3小時前
, 55F
02/01 19:15, 55F
→
02/01 19:15,
3小時前
, 56F
02/01 19:15, 56F
→
02/01 19:16,
3小時前
, 57F
02/01 19:16, 57F
→
02/01 19:16,
3小時前
, 58F
02/01 19:16, 58F
他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
至於拿openai 的輸出來重新訓練(蒸餾)是否可以告成功 我也不清楚 但據我所知官方
是禁止的 但還是有漏洞可鑽 (shareGPT之類的)
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:20:40
推
02/01 19:25,
3小時前
, 59F
02/01 19:25, 59F
推
02/01 19:26,
3小時前
, 60F
02/01 19:26, 60F
推
02/01 19:28,
3小時前
, 61F
02/01 19:28, 61F
推
02/01 19:30,
3小時前
, 62F
02/01 19:30, 62F
推
02/01 19:33,
3小時前
, 63F
02/01 19:33, 63F
推
02/01 19:35,
3小時前
, 64F
02/01 19:35, 64F
推
02/01 19:36,
3小時前
, 65F
02/01 19:36, 65F
→
02/01 19:36,
3小時前
, 66F
02/01 19:36, 66F
推
02/01 19:41,
3小時前
, 67F
02/01 19:41, 67F
推
02/01 19:43,
3小時前
, 68F
02/01 19:43, 68F
推
02/01 19:44,
3小時前
, 69F
02/01 19:44, 69F
→
02/01 19:44,
3小時前
, 70F
02/01 19:44, 70F
→
02/01 19:44,
3小時前
, 71F
02/01 19:44, 71F
→
02/01 19:48,
3小時前
, 72F
02/01 19:48, 72F
噓
02/01 19:52,
3小時前
, 73F
02/01 19:52, 73F
推
02/01 19:54,
3小時前
, 74F
02/01 19:54, 74F
推
02/01 19:55,
3小時前
, 75F
02/01 19:55, 75F
→
02/01 20:04,
2小時前
, 76F
02/01 20:04, 76F
→
02/01 20:04,
2小時前
, 77F
02/01 20:04, 77F
推
02/01 20:06,
2小時前
, 78F
02/01 20:06, 78F
→
02/01 20:06,
2小時前
, 79F
02/01 20:06, 79F
噓
02/01 20:06,
2小時前
, 80F
02/01 20:06, 80F
推
02/01 20:06,
2小時前
, 81F
02/01 20:06, 81F
推
02/01 20:15,
2小時前
, 82F
02/01 20:15, 82F
→
02/01 20:20,
2小時前
, 83F
02/01 20:20, 83F
討論串 (同標題文章)
C_Chat 近期熱門文章
PTT動漫區 即時熱門文章