deepseek还有一个重要发现
版主: Softfist
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
#1 deepseek还有一个重要发现
就是不仅R1很厉害
只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。
这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"
People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.
只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。
这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"
People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.
上次由 Caravel 在 2025年 1月 24日 14:05 修改。
#2 Re: deepseek还有一个重要发现
pc和手机为什么不联网?为什么不用服务器的gpu?Caravel 写了: 2025年 1月 24日 13:55 就是不仅R1很厉害
只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。
这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
#5 Re: deepseek还有一个重要发现
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
#7 Re: deepseek还有一个重要发现
llm的request都是unique的,没法cacheshuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
是本地小model对gpu的大model
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
#9 Re: deepseek还有一个重要发现
版上小将脑子里一天到晚就是节约成本,弯道超车,还不是一辈子被穷害的;老找歪门邪道的弯道迟早是撞的七零八碎的命 lolshuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
-
- 论坛元老
Caravel 的博客 - 帖子互动: 693
- 帖子: 27351
- 注册时间: 2022年 7月 24日 17:21
#13 Re: deepseek还有一个重要发现
多学点AI吧shuiya 写了: 2025年 1月 24日 14:12 当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧