新未名空间

此帖转自 Caravel 在军事天地（Military）的帖子：deepseek还有一个重要发现

就是不仅R1很厉害

只要用R1蒸馏一个小的8b，32b的小的开源model，小model在特定问题就能达到80%，90%的performance。

这些小model可以部署在PC上面，甚至手机上，不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.

卖女大，买卖塔，骨骼，味软

裁裁裁，凡是中国开始白菜的东西都不能碰

Caravel 写了： 2025年 1月 24日 14:12 此帖转自 Caravel 在军事天地（Military）的帖子：deepseek还有一个重要发现

就是不仅R1很厉害

只要用R1蒸馏一个小的8b，32b的小的开源model，小model在特定问题就能达到80%，90%的performance。

这些小model可以部署在PC上面，甚至手机上，不需要非常昂贵的gpu。

"DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH"

People have gotten this 1.5B model running on phones. The slightly bigger models like 8B or even 32B can probably run on existing data center server hardware, which has a huge impact on AI Infrastructure investment planning - you don't need Nvidia chips or anything fancy to run these small models.

我整了个32b在本地，只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完

（ヅ）写了： 2025年 1月 24日 16:03 我整了个32b在本地，只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完

32b太大了，换个小点的试试看

Caravel 写了： 2025年 1月 24日 16:04 32b太大了，换个小点的试试看

官方也没说给个建议多大显存用多大模型

32已经算小了，有个600多b的没敢试

16gb的显卡可以跑8b的

（ヅ）写了： 2025年 1月 24日 16:26 官方也没说给个建议多大显存用多大模型

32已经算小了，有个600多b的没敢试

你有多大的内存？600b装不下吧

Caravel 写了： 2025年 1月 24日 16:29 你有多大的内存？600b装不下吧

我有自知之明，根本没试

64GB RAM/6GB vRAM

这是副产品

（ヅ）写了： 2025年 1月 24日 16:03 我整了个32b在本地，只能用cpu跑那叫一个慢

问个问题几分钟才磨磨蹭蹭说完

why not use the 7B?

huangchong 写了： 2025年 1月 25日 09:59 why not use the 7B?

第一次试大模型，也不知道该哪个，随手选的

（ヅ）写了： 2025年 1月 25日 10:17 第一次试大模型，也不知道该哪个，随手选的

这个地方有个表，大致是说算GPU内存需求的话，有模型自己的大小（quantized的模型估计就是下载大小），加上k／v缓存，加上一点点overhead
https://smcleod.net/2024/12/bringing-k/ ... to-ollama/

我试了一个32B Q3_K_S, GGUF格式的模型，下载14G，全在显卡里跑的时候用17G显存
另一个7B Q4_K_M的模型下载4.4G，跑的时候7G

huangchong 写了： 2025年 1月 25日 10:30

这个地方有个表，大致是说算GPU内存需求的话，有模型自己的大小（quantized的模型估计就是下载大小），加上k／v缓存，加上一点点overhead
https://smcleod.net/2024/12/bringing-k/ ... to-ollama/

我试了一个32B Q3_K_S, GGUF格式的模型，下载14G，全在显卡里跑的时候用17G显存
另一个7B Q4_K_M的模型下载4.4G，跑的时候7G

果然膨胀了，我去整个14b的试试看能不能在显存里面跑

（ヅ）写了： 2025年 1月 25日 10:34 果然膨胀了，我去整个14b的试试看能不能在显存里面跑

花钱买了显卡，就要把它塞满才快乐

如果大显存很有用的话，那按摩店的方向对了，显存大，带宽高

DIYer 写了： 2025年 1月 25日 13:24 如果大显存很有用的话，那按摩店的方向对了，显存大，带宽高

可能nvidia也是故意限制游戏卡的显存大小，逼那些ai公司去买贵得多的计算卡

huangchong 写了： 2025年 1月 25日 13:33 可能nvidia也是故意限制游戏卡的显存大小，逼那些ai公司去买贵得多的计算卡

可是女大最高端的也没有按摩店的显存大

新未名空间

（转载）deepseek还有一个重要发现

#1 （转载）deepseek还有一个重要发现

#2 Re: （转载）deepseek还有一个重要发现

#3 Re: （转载）deepseek还有一个重要发现

#4 Re: （转载）deepseek还有一个重要发现

#5 Re: （转载）deepseek还有一个重要发现

#6 Re: （转载）deepseek还有一个重要发现

#7 Re: （转载）deepseek还有一个重要发现

#8 Re: （转载）deepseek还有一个重要发现

#9 Re: （转载）deepseek还有一个重要发现

#10 Re: （转载）deepseek还有一个重要发现

#11 Re: （转载）deepseek还有一个重要发现

#12 Re: （转载）deepseek还有一个重要发现

#13 Re: （转载）deepseek还有一个重要发现

#14 Re: （转载）deepseek还有一个重要发现

#15 Re: （转载）deepseek还有一个重要发现

#16 Re: （转载）deepseek还有一个重要发现

#17 Re: （转载）deepseek还有一个重要发现