分页: 1 / 1
#1 公平的说, DS确实很牛
发表于 : 2025年 2月 2日 22:16
由 windy
今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。
另外一道关于pytorch的问题,它给的sample code是最好的。
我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。
DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。
但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。
#2 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 2日 22:28
由 xexz
windy 写了: 2025年 2月 2日 22:16
今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。
另外一道关于pytorch的问题,它给的sample code是最好的。
我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。
DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。
但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。
哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。
#3 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 2日 22:35
由 windy
我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
xexz 写了: 2025年 2月 2日 22:28
哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。
#4 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 3日 10:16
由 irisyuan
windy 写了: 2025年 2月 2日 22:35
我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力
#5 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 3日 10:33
由 windy
但是为什么要蒸馏Qwen和Llama哪?
irisyuan 写了: 2025年 2月 3日 10:16
梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力
#6 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 3日 11:28
由 GuGuo
不想花过多时间自己去搜索,整理 raw data,
蒸馏取得数据,训练自己的架构和算法,是取得突破最快的方法
#7 Re: 公平的说, DS确实很牛
发表于 : 2025年 2月 3日 18:14
由 huangchong
windy 写了: 2025年 2月 3日 10:33
但是为什么要蒸馏Qwen和Llama哪?
是用现成小模型蒸馏deepseek,生成可以给普通人跑的小号模型吧