分页: 1 / 1
#1 deepseek还有一个重要发现
发表于 : 2025年 1月 24日 13:55
由 Caravel
就是不仅R1很厉害
只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。
这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"
People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.
#2 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 13:57
由 shuiya
Caravel 写了: 2025年 1月 24日 13:55
就是不仅R1很厉害
只要用R1蒸馏一个小的8b,32b的小的开源model,小model在特定问题就能达到80%,90%的performance。
这些小model可以部署在PC上面,甚至手机上,不需要非常昂贵的gpu。
pc和手机为什么不联网?为什么不用服务器的gpu?
#3 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 13:58
由 Caravel
shuiya 写了: 2025年 1月 24日 13:57
pc和手机为什么不联网?为什么不用服务器的gpu?
cost低很多,速度快
#4 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:00
由 Caravel
shuiya 写了: 2025年 1月 24日 13:57
pc和手机为什么不联网?为什么不用服务器的gpu?
现在deepseek带来的这波冲击影响还没有完全显现
很多人都在自己玩这些小Model
也许有些小本生意可以做了
#5 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:01
由 shuiya
Caravel 写了: 2025年 1月 24日 13:58
cost低很多,速度快
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
#6 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:01
由 shuiya
Caravel 写了: 2025年 1月 24日 14:00
现在deepseek带来的这波冲击影响还没有完全显现
很多人都在自己玩这些小Model
也许有些小本生意可以做了
文心一言的冲击体现了没?
#7 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:02
由 Caravel
shuiya 写了: 2025年 1月 24日 14:01
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
llm的request都是unique的,没法cache
是本地小model对gpu的大model
#8 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:02
由 Caravel
shuiya 写了: 2025年 1月 24日 14:01
文心一言的冲击体现了没?
水平不到冲击个屁
#9 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:03
由 TSG
shuiya 写了: 2025年 1月 24日 14:01
拿本地吭哧吭哧算的时间早就从服务器拿到结果了 本地需要算100ms以上的东西 肯定服务器快啊
cost也不一定 服务器处理很多相似的问题 可以直接cache了 更便宜
版上小将脑子里一天到晚就是节约成本,弯道超车,还不是一辈子被穷害的;老找歪门邪道的弯道迟早是撞的七零八碎的命 lol
#10 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:04
由 shuiya
Caravel 写了: 2025年 1月 24日 14:02
llm的request都是unique的,没法cache
是本地小model对gpu的大model
google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算
#11 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:06
由 Caravel
shuiya 写了: 2025年 1月 24日 14:04
google搜索都能cache 有什么不行的…
只要能上网肯定是把算力放服务器最划算
你不懂大模型
大模型就像两个人对话,很多轮,要记住context
怎么cache?
#12 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:12
由 shuiya
Caravel 写了: 2025年 1月 24日 14:06
你不懂大模型
大模型就像两个人对话,很多轮,要记住context
怎么cache?
当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧
#13 Re: deepseek还有一个重要发现
发表于 : 2025年 1月 24日 14:18
由 Caravel
shuiya 写了: 2025年 1月 24日 14:12
当然能 你说来说去其实就是那么点事
今天球赛怎么样啊?
欧冠谁能赢啊?
这些问题都可以直接从足球相关的cache里面拿部分结果
但你本地就等着去吧
多学点AI吧