deepseek还有一个重要发现

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#1 deepseek还有一个重要发现

帖子 Caravel楼主 »

就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.
上次由 Caravel 在 2025年 1月 24日 14:05 修改。
shuiya
论坛支柱
论坛支柱
帖子互动: 407
帖子: 10973
注册时间: 2023年 3月 24日 00:02

#2 Re: deepseek还有一个重要发现

帖子 shuiya »

Caravel 写了: 2025年 1月 24日 13:55 就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
pc和手机为什么不联网?为什么不用服务器的gpu?
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#3 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 13:57 pc和手机为什么不联网?为什么不用服务器的gpu?
cost低很多,速度快
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#4 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 13:57 pc和手机为什么不联网?为什么不用服务器的gpu?
现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了
shuiya
论坛支柱
论坛支柱
帖子互动: 407
帖子: 10973
注册时间: 2023年 3月 24日 00:02

#5 Re: deepseek还有一个重要发现

帖子 shuiya »

Caravel 写了: 2025年 1月 24日 13:58 cost低很多,速度快
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
shuiya
论坛支柱
论坛支柱
帖子互动: 407
帖子: 10973
注册时间: 2023年 3月 24日 00:02

#6 Re: deepseek还有一个重要发现

帖子 shuiya »

Caravel 写了: 2025年 1月 24日 14:00 现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了
文心一言的冲击体现了没?
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#7 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
llm的request都是unique的,没法cache

是本地小model对gpu的大model
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#8 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 14:01 文心一言的冲击体现了没?
水平不到冲击个屁
TSG(VV)
论坛支柱
论坛支柱
帖子互动: 971
帖子: 13268
注册时间: 2022年 8月 2日 09:59

#9 Re: deepseek还有一个重要发现

帖子 TSG(VV) »

shuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
版上小将脑子里一天到晚就是节约成本,弯道超车,还不是一辈子被穷害的;老找歪门邪道的弯道迟早是撞的七零八碎的命 lol
shuiya
论坛支柱
论坛支柱
帖子互动: 407
帖子: 10973
注册时间: 2023年 3月 24日 00:02

#10 Re: deepseek还有一个重要发现

帖子 shuiya »

Caravel 写了: 2025年 1月 24日 14:02 llm的request都是unique的,没法cache

是本地小model对gpu的大model
google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#11 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 14:04 google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算
你不懂大模型

大模型就像两个人对话,很多轮,要记住context

怎么cache?
shuiya
论坛支柱
论坛支柱
帖子互动: 407
帖子: 10973
注册时间: 2023年 3月 24日 00:02

#12 Re: deepseek还有一个重要发现

帖子 shuiya »

Caravel 写了: 2025年 1月 24日 14:06 你不懂大模型

大模型就像两个人对话,很多轮,要记住context

怎么cache?
当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#13 Re: deepseek还有一个重要发现

帖子 Caravel楼主 »

shuiya 写了: 2025年 1月 24日 14:12 当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧
多学点AI吧
回复

回到 “军事天地(Military)”