新未名空间

今天一道算法题，我试了DS, Mistral, ChatGPT, DS的算法是对的，而且挺巧妙。Mistral看起来是对的，但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题，它给的sample code是最好的。

我在网上看到另一个人的测试，也证实了DS的数学和编程是最强的。

DS的几个问题，一个是太慢，另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版，DS的在不超过1万块机器上能跑的小模型里确是最差的。

windy 写了： 2025年 2月 2日 22:16 今天一道算法题，我试了DS, Mistral, ChatGPT, DS的算法是对的，而且挺巧妙。Mistral看起来是对的，但仔细推敲一下发现是有问题的。ChatGPT完全就是错的。

另外一道关于pytorch的问题，它给的sample code是最好的。

我在网上看到另一个人的测试，也证实了DS的数学和编程是最强的。

DS的几个问题，一个是太慢，另外就是在文字能力上并不比另外几个强。

但是网上流传的那些屌丝版，DS的在不超过1万块机器上能跑的小模型里确是最差的。

哪些是deepseek吐料喂出来的Qwen，不是deep seek本尊，本尊就是那个七百多的。

我就是觉得奇怪，为什么DS不蒸馏它自己，发表小一点的模型？

xexz 写了： 2025年 2月 2日 22:28 哪些是deepseek吐料喂出来的Qwen，不是deep seek本尊，本尊就是那个七百多的。

windy 写了： 2025年 2月 2日 22:35 我就是觉得奇怪，为什么DS不蒸馏它自己，发表小一点的模型？

梁文锋说过好几次，他们做的是science，他们不想做应用。这种活儿，他们觉得是浪费时间，浪费精力

但是为什么要蒸馏Qwen和Llama哪？

irisyuan 写了： 2025年 2月 3日 10:16 梁文锋说过好几次，他们做的是science，他们不想做应用。这种活儿，他们觉得是浪费时间，浪费精力

不想花过多时间自己去搜索，整理 raw data,
蒸馏取得数据，训练自己的架构和算法，是取得突破最快的方法

windy 写了： 2025年 2月 3日 10:33 但是为什么要蒸馏Qwen和Llama哪？

是用现成小模型蒸馏deepseek，生成可以给普通人跑的小号模型吧

新未名空间

公平的说， DS确实很牛

#1 公平的说， DS确实很牛

#2 Re: 公平的说， DS确实很牛

#3 Re: 公平的说， DS确实很牛

#4 Re: 公平的说， DS确实很牛

#5 Re: 公平的说， DS确实很牛

#6 Re: 公平的说， DS确实很牛

#7 Re: 公平的说， DS确实很牛