#1 我有个疑问,在LM Studio找DS的小模型
发表于 : 2025年 2月 1日 10:36
除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。
是不是DS-r1全部是distill qwen或者llama的?
是不是DS-r1全部是distill qwen或者llama的?
原因很简单,DS没小模型。你列的那几个,都不是DS,都是其他小模型用DS蒸馏出来的。windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。
是不是DS-r1全部是distill qwen或者llama的?
应该是用qwen 的小模型 distill R1 得到的吧windy 写了: 2025年 2月 1日 10:36 除了v3,全是Distill-qwen-32b, distill-qwen-14b, distill-llama-之类的。在ollama上则是只有一个Deepseek-r1, 然后下面有14b,32b什么的。
是不是DS-r1全部是distill qwen或者llama的?
可能这涉及到DS V3是怎么来的吧windy 写了: 2025年 2月 1日 17:13 Ollama上的 Deepseek r1 有1.5, 7, 8, 14,32, 70, 671b.671应该是原生的,其它按Ollama上的说法,是distilled from Deepseek-r1 based on Llama and Qwen.
这个的意思应该不是说用DS蒸馏,而是从DS蒸馏。但Based on是什么意思?
我也不认为DS直接蒸馏了ChatGPT.但它肯定用某种方法获得了ChatGPT的一些参数。我猜是选择性的问一些问题,根据答案可以得到一些信息。不然没法解释DS总是把自己当成ChatGPT