分页: 1 / 1

#1 公平的说, DS确实很牛

发表于 : 2025年 2月 2日 22:16
windy
今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题,它给的sample code是最好的。

我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。

DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。

#2 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 2日 22:28
xexz
windy 写了: 2025年 2月 2日 22:16 今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题,它给的sample code是最好的。

我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。

DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。
哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。

#3 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 2日 22:35
windy
我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
xexz 写了: 2025年 2月 2日 22:28 哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。

#4 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 3日 10:16
irisyuan
windy 写了: 2025年 2月 2日 22:35 我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力

#5 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 3日 10:33
windy
但是为什么要蒸馏Qwen和Llama哪?
irisyuan 写了: 2025年 2月 3日 10:16 梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力

#6 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 3日 11:28
GuGuo
不想花过多时间自己去搜索,整理 raw data,
蒸馏取得数据,训练自己的架构和算法,是取得突破最快的方法

#7 Re: 公平的说, DS确实很牛

发表于 : 2025年 2月 3日 18:14
huangchong
windy 写了: 2025年 2月 3日 10:33 但是为什么要蒸馏Qwen和Llama哪?
是用现成小模型蒸馏deepseek,生成可以给普通人跑的小号模型吧