我有个疑问,在LM Studio找DS的小模型

电脑,手机,硬件,软件,电子产品等

版主: Jack12345

回复
windy(文帝)楼主
著名点评
著名点评
帖子互动: 1012
帖子: 5173
注册时间: 2023年 2月 7日 18:53

#1 我有个疑问,在LM Studio找DS的小模型

帖子 windy(文帝)楼主 »

除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 742
帖子: 5098
注册时间: 2022年 7月 28日 14:44

#2 Re: 我有个疑问,在LM Studio找DS的小模型

帖子 HouseMD(黄皮川黑) »

windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?
原因很简单,DS没小模型。你列的那几个,都不是DS,都是其他小模型用DS蒸馏出来的。
这里涉及一个很basic的概念,就是要蒸馏一个大模型,需要owner自己来,外人除非有上帝视角否则做不到。
图片
windy(文帝)楼主
著名点评
著名点评
帖子互动: 1012
帖子: 5173
注册时间: 2023年 2月 7日 18:53

#3 Re: 我有个疑问,在LM Studio找DS的小模型

帖子 windy(文帝)楼主 »

Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的,其它按Ollama上的说法,是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏,而是从DS蒸馏。但Based on是什么意思?

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题,根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 4097
帖子: 60966
注册时间: 2022年 7月 22日 01:22

#4 Re: 我有个疑问,在LM Studio找DS的小模型

帖子 huangchong(净坛使者) »

windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?
应该是用qwen 的小模型 distill R1 得到的吧
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 4097
帖子: 60966
注册时间: 2022年 7月 22日 01:22

#5 Re: 我有个疑问,在LM Studio找DS的小模型

帖子 huangchong(净坛使者) »

windy 写了: 2025年 2月 1日 17:13 Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的,其它按Ollama上的说法,是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏,而是从DS蒸馏。但Based on是什么意思?

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题,根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT
可能这涉及到DS V3是怎么来的吧
回复

回到 “电脑手机(IT)”