ds再怎么蹦，也跳不出黄皮夹手心

jiml · 帖子由 **jiml楼主** » 2025年 2月 8日 13:56

ds号称算力只需要1/10，用户和英伟达三万刀一块的B200拜拜了

jiml · 帖子由 **jiml楼主** » 2025年 2月 8日 13:59

然后呢，去抢两千刀一块的英伟达RTX5090

RTX5090不需要台积电的CoWoS技术，没有生产瓶颈，要多少生产多少，管够

biggestballs

游戏显卡不是拿来训练的

jiml · 帖子由 **jiml楼主** » 2025年 2月 8日 14:05

尼玛，一个ds，坑完openAI，又坑了台积电。

CoWoS是台积电垄断技术，开价多少，女大就得付多少。

ds帮女大省钱了，难怪黄皮夹不出面评论ds，怕是控制不住当面大笑起来。

jiml · 帖子由 **jiml楼主** » 2025年 2月 8日 14:07

biggestballs 写了： 2025年 2月 8日 14:01 游戏显卡不是拿来训练的

股版里真懂AI的三个半，你是那半个

biggestballs

jiml 写了： 2025年 2月 8日 14:07 股版里真懂AI的三个半，你是那半个

我懂不懂AI，轮不到你这个外行来评价

jiml · 帖子由 **jiml楼主** » 2025年 2月 8日 14:11

biggestballs 写了： 2025年 2月 8日 14:08 我懂不懂AI，轮不到你这个外行来评价

***子在118时候炒底女大
你呢，诈唬女大跌到一百以下

没比较没伤害，有比较，赫赫，你在股票上的道行，比***子差，你承认不承认？
软软ai中心拔插网络线的technician都比你有更多的ai知识

anesthetic · 帖子由 **anesthetic** » 2025年 2月 8日 15:47

biggestballs 写了： 2025年 2月 8日 14:01 游戏显卡不是拿来训练的

国内很多公司都是用3090 4090训练啊，黄皮衣在535driver以后开了nvlink的backdoor，2x4090几乎等于h100了

biggestballs

anesthetic 写了： 2025年 2月 8日 15:47 国内很多公司都是用3090 4090训练啊，黄皮衣在535driver以后开了nvlink的backdoor，2x4090几乎等于h100了

用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU，所以企业级LLM没人用游戏显卡，自己local跑跑可以

我刚又去查了一下，GPU memory bandwidth也差不少

anesthetic · 帖子由 **anesthetic** » 2025年 2月 8日 16:08

biggestballs 写了： 2025年 2月 8日 15:57 用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU，所以企业级LLM没人用游戏显卡，自己local跑跑可以

我刚又去查了一下，GPU memory bandwidth也差不少

完全可以跑，就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。

kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。

biggestballs

anesthetic 写了： 2025年 2月 8日 16:08 完全可以跑，就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。

kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。

你说的4090的VRAM就是24 GB，H100的是80 GB，还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/s

LLM训练的三大性能瓶颈：算力（这个两款GPU都够用）、GPU memory、GPU memory bandwidth，后两者的差距太大了，最后的训练性能tokens/s差很多，所以美国这边大厂没人用游戏显卡，就算中国那边受GPU禁售限制，用H800也比用游戏显卡性能更好

你说的中国有公司用游戏显卡，这个我不了解，美国这边的情况我比较清楚，中国公司用性能换成本，也可以理解

anesthetic · 帖子由 **anesthetic** » 2025年 2月 8日 16:51

biggestballs 写了： 2025年 2月 8日 16:20 你说的4090的VRAM就是24 GB，H100的是80 GB，还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/s

LLM训练的三大性能瓶颈：算力（这个两款GPU都够用）、GPU memory、GPU memory bandwidth，后两者的差距太大了，最后的训练性能tokens/s差很多，所以美国这边大厂没人用游戏显卡，就算中国那边受GPU禁售限制，用H800也比用游戏显卡性能更好

你说的中国有公司用游戏显卡，这个我不了解，美国这边的情况我比较清楚，中国公司用性能换成本，也可以理解

3090 4090有nvlink啊，24x2，加上stream processor做compressor，bandwidth都不是问题

你去pytorch的论坛搜搜，2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366

biggestballs

anesthetic 写了： 2025年 2月 8日 16:51 3090 4090有nvlink啊，24x2，加上stream processor做compressor，bandwidth都不是问题

你去pytorch的论坛搜搜，2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366

本来不想再回，看你这么积极讨论就多说几句

我们就假设按你说的2 x 4090 = 1 H100，从datacenter部署的角度，这是很难行的通的，要考虑几个问题，不光光是成本：

1. 从用户体验的角度，游戏显卡用作LLM训练慢，用作推理也慢，那用户就要多等才能得到回应，用户是否能接受，你提到NVLink，memory bandwidth不等于network bandwidth，NVLink是指后者，而游戏显卡是GPU memory bandwidth低，也就是GPU core跟memory之间的数据通信慢，LLM训练推理中SM要花大量时间在等待数据上，当今GPU算力并不是瓶颈，而在memory
2. 从silicon的角度，一个compute node能接入的PCIe devices是固定的，假设还是跟H100 DGX一样是8 GPU的话，如果用游戏显卡，需要2倍的compute nodes，那网络layer的各层switch、network cable、power wire都要增加，本质上datacenter大小要增加一倍了，那么相关配套设置成本需要考虑
3. 从power的角度，what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度，cooling占datacenter用电成本的40%，cooling双倍compute nodes成本又会增加多少？

这些因素解释了为什么H100比4090贵的多，不然人人都会用4090来做企业级LLM开发

anesthetic · 帖子由 **anesthetic** » 2025年 2月 9日 17:33

biggestballs 写了： 2025年 2月 8日 18:01 本来不想再回，看你这么积极讨论就多说几句

我们就假设按你说的2 x 4090 = 1 H100，从datacenter部署的角度，这是很难行的通的，要考虑几个问题，不光光是成本：

1. 从用户体验的角度，游戏显卡用作LLM训练慢，用作推理也慢，那用户就要多等才能得到回应，用户是否能接受，你提到NVLink，memory bandwidth不等于network bandwidth，NVLink是指后者，而游戏显卡是GPU memory bandwidth低，也就是GPU core跟memory之间的数据通信慢，LLM训练推理中SM要花大量时间在等待数据上，当今GPU算力并不是瓶颈，而在memory
2. 从silicon的角度，一个compute node能接入的PCIe devices是固定的，假设还是跟H100 DGX一样是8 GPU的话，如果用游戏显卡，需要2倍的compute nodes，那网络layer的各层switch、network cable、power wire都要增加，本质上datacenter大小要增加一倍了，那么相关配套设置成本需要考虑
3. 从power的角度，what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度，cooling占datacenter用电成本的40%，cooling双倍compute nodes成本又会增加多少？

这些因素解释了为什么H100比4090贵的多，不然人人都会用4090来做企业级LLM开发

所以说你就是个莓果devops，压根不知道这个DS怎么运作的。。。DS直接把20个streaming processor改成compressor/depressor，memory bandwidth直接形同虚设了。这还只是一个公布的骚操作，想想2021年兔子的矿工直接把老黄的driver hack了，丫的挖矿限制尼玛消失了。。

microdsp · 帖子由 **microdsp** » 2025年 2月 9日 18:44

顶一下虽然叔看懂40%吧

若用汇编写跳过编译器 DS还是可以表扬一下至少完全弄懂了h800/h100 spec, 和编译的功能才不至于荡机

当然肯定不影响女大，硬件还是核心

hahan · 帖子由 **hahan** » 2025年 2月 9日 19:06

microdsp 写了： 2025年 2月 9日 18:44 顶一下虽然叔看懂40%吧

若用汇编写跳过编译器 DS还是可以表扬一下至少完全弄懂了h800/h100 spec, 和编译的功能才不至于荡机

当然肯定不影响女大，硬件还是核心

硬件永远不可能是核心

datada · 帖子由 **datada** » 2025年 2月 10日 09:06

华为昇腾人工智能芯片宣布全面接入DeepSeek的R1模型，这就意味着DeepSeek在技术资源上得到强大的支持。
华为五块相当于一块H100吗？

jiml · 帖子由 **jiml楼主** » 2025年 2月 10日 10:57

datada 写了： 2025年 2月 10日 09:06 华为昇腾人工智能芯片宣布全面接入DeepSeek的R1模型，这就意味着DeepSeek在技术资源上得到强大的支持。
华为五块相当于一块H100吗？

华为和芯片有关的消息，都是bluffing

eecandy · 帖子由 **eecandy** » 2025年 2月 10日 10:59

jiml 写了： 2025年 2月 10日 10:57 华为和芯片有关的消息，都是bluffing

小鸡毛天天B........J

jiml · 帖子由 **jiml楼主** » 2025年 2月 10日 11:00

eecandy 写了： 2025年 2月 10日 10:59 小鸡毛天天B........J

**子，侬*可好?

新未名空间

ds再怎么蹦，也跳不出黄皮夹手心

#1 ds再怎么蹦，也跳不出黄皮夹手心

#2 Re: ds再怎么蹦，也跳不出黄皮夹手心

#3 Re: ds再怎么蹦，也跳不出黄皮夹手心

#4 Re: ds再怎么蹦，也跳不出黄皮夹手心

#5 Re: ds再怎么蹦，也跳不出黄皮夹手心

#6 Re: ds再怎么蹦，也跳不出黄皮夹手心

#7 Re: ds再怎么蹦，也跳不出黄皮夹手心

#8 Re: ds再怎么蹦，也跳不出黄皮夹手心

#9 Re: ds再怎么蹦，也跳不出黄皮夹手心

#10 Re: ds再怎么蹦，也跳不出黄皮夹手心

#11 Re: ds再怎么蹦，也跳不出黄皮夹手心

#12 Re: ds再怎么蹦，也跳不出黄皮夹手心

#13 Re: ds再怎么蹦，也跳不出黄皮夹手心

#14 Re: ds再怎么蹦，也跳不出黄皮夹手心

#15 Re: ds再怎么蹦，也跳不出黄皮夹手心

#16 Re: ds再怎么蹦，也跳不出黄皮夹手心

#17 Re: ds再怎么蹦，也跳不出黄皮夹手心

#18 Re: ds再怎么蹦，也跳不出黄皮夹手心

#19 Re: ds再怎么蹦，也跳不出黄皮夹手心

#20 Re: ds再怎么蹦，也跳不出黄皮夹手心