新未名空间

除了v3,全是Distill-qwen-32b, distill-qwen-14b， distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的？

windy 写了： 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b， distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的？

原因很简单，DS没小模型。你列的那几个，都不是DS，都是其他小模型用DS蒸馏出来的。
这里涉及一个很basic的概念，就是要蒸馏一个大模型，需要owner自己来，外人除非有上帝视角否则做不到。

Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的，其它按Ollama上的说法，是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏，而是从DS蒸馏。但Based on是什么意思？

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题，根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT

windy 写了： 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b， distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。

是不是DS-r1全部是distill qwen或者llama的？

应该是用qwen 的小模型 distill R1 得到的吧

windy 写了： 2025年 2月 1日 17:13 Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的，其它按Ollama上的说法，是distilled from Deepseek-r1 based on Llama and Qwen.

这个的意思应该不是说用DS蒸馏，而是从DS蒸馏。但Based on是什么意思？

我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题，根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT

可能这涉及到DS V3是怎么来的吧

新未名空间

我有个疑问，在LM Studio找DS的小模型

#1 我有个疑问，在LM Studio找DS的小模型

#2 Re: 我有个疑问，在LM Studio找DS的小模型

#3 Re: 我有个疑问，在LM Studio找DS的小模型

#4 Re: 我有个疑问，在LM Studio找DS的小模型

#5 Re: 我有个疑问，在LM Studio找DS的小模型