分页: 1 / 1

#1 我有个疑问,在LM Studio找DS的小模型

发表于 : 2025年 2月 1日 10:36
windy
除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?

#2 Re: 我有个疑问,在LM Studio找DS的小模型

发表于 : 2025年 2月 1日 13:24
HouseMD
windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?
原因很简单,DS没小模型。你列的那几个,都不是DS,都是其他小模型用DS蒸馏出来的。
这里涉及一个很basic的概念,就是要蒸馏一个大模型,需要owner自己来,外人除非有上帝视角否则做不到。

#3 Re: 我有个疑问,在LM Studio找DS的小模型

发表于 : 2025年 2月 1日 17:13
windy
Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的,其它按Ollama上的说法,是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏,而是从DS蒸馏。但Based on是什么意思?

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题,根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT

#4 Re: 我有个疑问,在LM Studio找DS的小模型

发表于 : 2025年 2月 1日 17:16
huangchong
windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的?
应该是用qwen 的小模型 distill R1 得到的吧

#5 Re: 我有个疑问,在LM Studio找DS的小模型

发表于 : 2025年 2月 1日 17:18
huangchong
windy 写了: 2025年 2月 1日 17:13 Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的,其它按Ollama上的说法,是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏,而是从DS蒸馏。但Based on是什么意思?

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题,根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT
可能这涉及到DS V3是怎么来的吧