分页: 1 / 1

#1 deepseek还有一个重要发现

发表于 : 2025年 1月 24日 13:55
Caravel
就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.

#2 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 13:57
shuiya
Caravel 写了: 2025年 1月 24日 13:55 就是不仅R1很厉害

只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。

这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
pc和手机为什么不联网?为什么不用服务器的gpu?

#3 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 13:58
Caravel
shuiya 写了: 2025年 1月 24日 13:57 pc和手机为什么不联网?为什么不用服务器的gpu?
cost低很多,速度快

#4 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:00
Caravel
shuiya 写了: 2025年 1月 24日 13:57 pc和手机为什么不联网?为什么不用服务器的gpu?
现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了

#5 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:01
shuiya
Caravel 写了: 2025年 1月 24日 13:58 cost低很多,速度快
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜

#6 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:01
shuiya
Caravel 写了: 2025年 1月 24日 14:00 现在deepseek带来的这波冲击影响还没有完全显现

很多人都在自己玩这些小Model

也许有些小本生意可以做了
文心一言的冲击体现了没?

#7 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:02
Caravel
shuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
llm的request都是unique的,没法cache

是本地小model对gpu的大model

#8 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:02
Caravel
shuiya 写了: 2025年 1月 24日 14:01 文心一言的冲击体现了没?
水平不到冲击个屁

#9 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:03
TSG
shuiya 写了: 2025年 1月 24日 14:01 拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
版上小将脑子里一天到晚就是节约成本,弯道超车,还不是一辈子被穷害的;老找歪门邪道的弯道迟早是撞的七零八碎的命 lol

#10 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:04
shuiya
Caravel 写了: 2025年 1月 24日 14:02 llm的request都是unique的,没法cache

是本地小model对gpu的大model
google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算

#11 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:06
Caravel
shuiya 写了: 2025年 1月 24日 14:04 google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算
你不懂大模型

大模型就像两个人对话,很多轮,要记住context

怎么cache?

#12 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:12
shuiya
Caravel 写了: 2025年 1月 24日 14:06 你不懂大模型

大模型就像两个人对话,很多轮,要记住context

怎么cache?
当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧

#13 Re: deepseek还有一个重要发现

发表于 : 2025年 1月 24日 14:18
Caravel
shuiya 写了: 2025年 1月 24日 14:12 当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧
多学点AI吧