公平的说, DS确实很牛

电脑,手机,硬件,软件,电子产品等

版主: Jack12345

回复
windy(文帝)楼主
著名点评
著名点评
帖子互动: 1010
帖子: 5165
注册时间: 2023年 2月 7日 18:53

#1 公平的说, DS确实很牛

帖子 windy(文帝)楼主 »

今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题,它给的sample code是最好的。

我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。

DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。
xexz
论坛精英
论坛精英
帖子互动: 387
帖子: 6684
注册时间: 2022年 7月 30日 11:48
联系:

#2 Re: 公平的说, DS确实很牛

帖子 xexz »

windy 写了: 2025年 2月 2日 22:16 今天一道算法题,我试了DS, Mistral, ChatGPT, DS的算法是对的,而且挺巧妙。Mistral看起来是对的,但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题,它给的sample code是最好的。

我在网上看到另一个人的测试,也证实了DS的数学和编程是最强的。

DS的几个问题,一个是太慢,另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版,DS的在不超过1万块机器上能跑的小模型里确是最差的。
哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。
windy(文帝)楼主
著名点评
著名点评
帖子互动: 1010
帖子: 5165
注册时间: 2023年 2月 7日 18:53

#3 Re: 公平的说, DS确实很牛

帖子 windy(文帝)楼主 »

我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
xexz 写了: 2025年 2月 2日 22:28 哪些是deepseek吐料喂出来的Qwen,不是deep seek本尊,本尊就是那个七百多的。
irisyuan
论坛精英
论坛精英
帖子互动: 242
帖子: 5976
注册时间: 2022年 7月 23日 18:02

#4 Re: 公平的说, DS确实很牛

帖子 irisyuan »

windy 写了: 2025年 2月 2日 22:35 我就是觉得奇怪,为什么DS不蒸馏它自己,发表小一点的模型?
梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力
windy(文帝)楼主
著名点评
著名点评
帖子互动: 1010
帖子: 5165
注册时间: 2023年 2月 7日 18:53

#5 Re: 公平的说, DS确实很牛

帖子 windy(文帝)楼主 »

但是为什么要蒸馏Qwen和Llama哪?
irisyuan 写了: 2025年 2月 3日 10:16 梁文锋说过好几次,他们做的是science,他们不想做应用。这种活儿,他们觉得是浪费时间,浪费精力
GuGuo(春花)
见习写手
见习写手
帖子互动: 7
帖子: 95
注册时间: 2024年 5月 12日 15:29

#6 Re: 公平的说, DS确实很牛

帖子 GuGuo(春花) »

不想花过多时间自己去搜索,整理 raw data,
蒸馏取得数据,训练自己的架构和算法,是取得突破最快的方法
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 4096
帖子: 60933
注册时间: 2022年 7月 22日 01:22

#7 Re: 公平的说, DS确实很牛

帖子 huangchong(净坛使者) »

windy 写了: 2025年 2月 3日 10:33 但是为什么要蒸馏Qwen和Llama哪?
是用现成小模型蒸馏deepseek,生成可以给普通人跑的小号模型吧
回复

回到 “电脑手机(IT)”