deepseek还有一个重要发现

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 13:55

就是不仅R1很厉害

只要用R1蒸馏一个小的8b，32b的小的开源model，小model在特定问题就能达到80%，90%的performance。

这些小model可以部署在PC上面，甚至手机上，不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.

shuiya · 帖子由 **shuiya** » 2025年 1月 24日 13:57

Caravel 写了： 2025年 1月 24日 13:55 就是不仅R1很厉害

只要用R1蒸馏一个小的8b，32b的小的开源model，小model在特定问题就能达到80%，90%的performance。

这些小model可以部署在PC上面，甚至手机上，不需要非常昂贵的gpu。

pc和手机为什么不联网？为什么不用服务器的gpu？

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 13:58

shuiya 写了： 2025年 1月 24日 13:57 pc和手机为什么不联网？为什么不用服务器的gpu？

cost低很多，速度快

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 14:00

shuiya 写了： 2025年 1月 24日 13:57 pc和手机为什么不联网？为什么不用服务器的gpu？

现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了

shuiya · 帖子由 **shuiya** » 2025年 1月 24日 14:01

Caravel 写了： 2025年 1月 24日 13:58 cost低很多，速度快

拿本地吭哧吭哧算的时间早就从服务器拿到结果了本地需要算100ms以上的东西肯定服务器快啊
cost也不一定服务器处理很多相似的问题可以直接cache了更便宜

shuiya · 帖子由 **shuiya** » 2025年 1月 24日 14:01

Caravel 写了： 2025年 1月 24日 14:00 现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了

文心一言的冲击体现了没？

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 14:02

shuiya 写了： 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了本地需要算100ms以上的东西肯定服务器快啊
cost也不一定服务器处理很多相似的问题可以直接cache了更便宜

llm的request都是unique的，没法cache

是本地小model对gpu的大model

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 14:02

shuiya 写了： 2025年 1月 24日 14:01 文心一言的冲击体现了没？

水平不到冲击个屁

TSG · 帖子由 **TSG（VV）** » 2025年 1月 24日 14:03

shuiya 写了： 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了本地需要算100ms以上的东西肯定服务器快啊
cost也不一定服务器处理很多相似的问题可以直接cache了更便宜

版上小将脑子里一天到晚就是节约成本，弯道超车，还不是一辈子被穷害的；老找歪门邪道的弯道迟早是撞的七零八碎的命 lol

shuiya · 帖子由 **shuiya** » 2025年 1月 24日 14:04

Caravel 写了： 2025年 1月 24日 14:02 llm的request都是unique的，没法cache

是本地小model对gpu的大model

google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 14:06

shuiya 写了： 2025年 1月 24日 14:04 google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算

你不懂大模型

大模型就像两个人对话，很多轮，要记住context

怎么cache？

shuiya · 帖子由 **shuiya** » 2025年 1月 24日 14:12

Caravel 写了： 2025年 1月 24日 14:06 你不懂大模型

大模型就像两个人对话，很多轮，要记住context

怎么cache？

当然能你说来说去其实就是那么点事
今天球赛怎么样啊？
欧冠谁能赢啊？
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧

Caravel · 帖子由 **Caravel楼主** » 2025年 1月 24日 14:18

shuiya 写了： 2025年 1月 24日 14:12 当然能你说来说去其实就是那么点事
今天球赛怎么样啊？
欧冠谁能赢啊？
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧

多学点AI吧

新未名空间

deepseek还有一个重要发现

#1 deepseek还有一个重要发现

#2 Re: deepseek还有一个重要发现

#3 Re: deepseek还有一个重要发现

#4 Re: deepseek还有一个重要发现

#5 Re: deepseek还有一个重要发现

#6 Re: deepseek还有一个重要发现

#7 Re: deepseek还有一个重要发现

#8 Re: deepseek还有一个重要发现

#9 Re: deepseek还有一个重要发现

#10 Re: deepseek还有一个重要发现

#11 Re: deepseek还有一个重要发现

#12 Re: deepseek还有一个重要发现

#13 Re: deepseek还有一个重要发现