ds再怎么蹦,也跳不出黄皮夹手心
版主: 牛河梁
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 429
- 帖子: 3922
- 注册时间: 2024年 2月 5日 19:42
#4 Re: ds再怎么蹦,也跳不出黄皮夹手心
尼玛,一个ds,坑完openAI,又坑了台积电。
CoWoS是台积电垄断技术,开价多少,女大就得付多少。
ds帮女大省钱了,难怪黄皮夹不出面评论ds,怕是控制不住当面大笑起来。
CoWoS是台积电垄断技术,开价多少,女大就得付多少。
ds帮女大省钱了,难怪黄皮夹不出面评论ds,怕是控制不住当面大笑起来。
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 429
- 帖子: 3922
- 注册时间: 2024年 2月 5日 19:42
#7 Re: ds再怎么蹦,也跳不出黄皮夹手心
***子在118时候炒底女大
你呢,诈唬女大跌到一百以下
没比较没伤害,有比较,赫赫,你在股票上的道行,比***子差,你承认不承认?
软软ai中心拔插网络线的technician都比你有更多的ai知识
上次由 牛河梁 在 2025年 2月 16日 12:25 修改。
原因: 被投诉用词不文明
原因: 被投诉用词不文明
-
anesthetic
- 知名作家

- 帖子互动: 103
- 帖子: 1118
- 注册时间: 2022年 8月 30日 01:02
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 429
- 帖子: 3922
- 注册时间: 2024年 2月 5日 19:42
#9 Re: ds再怎么蹦,也跳不出黄皮夹手心
用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU,所以企业级LLM没人用游戏显卡,自己local跑跑可以anesthetic 写了: 2025年 2月 8日 15:47 国内很多公司都是用3090 4090训练啊,黄皮衣在535driver以后开了nvlink的backdoor,2x4090几乎等于h100了
我刚又去查了一下,GPU memory bandwidth也差不少
Devil doesn't need an advocate
-
anesthetic
- 知名作家

- 帖子互动: 103
- 帖子: 1118
- 注册时间: 2022年 8月 30日 01:02
#10 Re: ds再怎么蹦,也跳不出黄皮夹手心
完全可以跑,就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。biggestballs 写了: 2025年 2月 8日 15:57 用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU,所以企业级LLM没人用游戏显卡,自己local跑跑可以
我刚又去查了一下,GPU memory bandwidth也差不少
kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 429
- 帖子: 3922
- 注册时间: 2024年 2月 5日 19:42
#11 Re: ds再怎么蹦,也跳不出黄皮夹手心
你说的4090的VRAM就是24 GB,H100的是80 GB,还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/sanesthetic 写了: 2025年 2月 8日 16:08 完全可以跑,就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。
kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。
LLM训练的三大性能瓶颈:算力(这个两款GPU都够用)、GPU memory、GPU memory bandwidth,后两者的差距太大了,最后的训练性能tokens/s差很多,所以美国这边大厂没人用游戏显卡,就算中国那边受GPU禁售限制,用H800也比用游戏显卡性能更好
你说的中国有公司用游戏显卡,这个我不了解,美国这边的情况我比较清楚,中国公司用性能换成本,也可以理解
Devil doesn't need an advocate
-
anesthetic
- 知名作家

- 帖子互动: 103
- 帖子: 1118
- 注册时间: 2022年 8月 30日 01:02
#12 Re: ds再怎么蹦,也跳不出黄皮夹手心
3090 4090有nvlink啊,24x2, 加上stream processor做compressor,bandwidth都不是问题biggestballs 写了: 2025年 2月 8日 16:20 你说的4090的VRAM就是24 GB,H100的是80 GB,还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/s
LLM训练的三大性能瓶颈:算力(这个两款GPU都够用)、GPU memory、GPU memory bandwidth,后两者的差距太大了,最后的训练性能tokens/s差很多,所以美国这边大厂没人用游戏显卡,就算中国那边受GPU禁售限制,用H800也比用游戏显卡性能更好
你说的中国有公司用游戏显卡,这个我不了解,美国这边的情况我比较清楚,中国公司用性能换成本,也可以理解
你去pytorch的论坛搜搜,2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 429
- 帖子: 3922
- 注册时间: 2024年 2月 5日 19:42
#13 Re: ds再怎么蹦,也跳不出黄皮夹手心
本来不想再回,看你这么积极讨论就多说几句anesthetic 写了: 2025年 2月 8日 16:51 3090 4090有nvlink啊,24x2, 加上stream processor做compressor,bandwidth都不是问题
你去pytorch的论坛搜搜,2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366
我们就假设按你说的2 x 4090 = 1 H100,从datacenter部署的角度,这是很难行的通的,要考虑几个问题,不光光是成本:
1. 从用户体验的角度,游戏显卡用作LLM训练慢,用作推理也慢,那用户就要多等才能得到回应,用户是否能接受,你提到NVLink,memory bandwidth不等于network bandwidth,NVLink是指后者,而游戏显卡是GPU memory bandwidth低,也就是GPU core跟memory之间的数据通信慢,LLM训练推理中SM要花大量时间在等待数据上,当今GPU算力并不是瓶颈,而在memory
2. 从silicon的角度,一个compute node能接入的PCIe devices是固定的,假设还是跟H100 DGX一样是8 GPU的话,如果用游戏显卡,需要2倍的compute nodes,那网络layer的各层switch、network cable、power wire都要增加,本质上datacenter大小要增加一倍了,那么相关配套设置成本需要考虑
3. 从power的角度,what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度,cooling占datacenter用电成本的40%,cooling双倍compute nodes成本又会增加多少?
这些因素解释了为什么H100比4090贵的多,不然人人都会用4090来做企业级LLM开发
x1
Devil doesn't need an advocate
-
anesthetic
- 知名作家

- 帖子互动: 103
- 帖子: 1118
- 注册时间: 2022年 8月 30日 01:02
#14 Re: ds再怎么蹦,也跳不出黄皮夹手心
所以说你就是个莓果devops,压根不知道这个DS怎么运作的。。。DS直接把20个streaming processor改成compressor/depressor,memory bandwidth直接形同虚设了。这还只是一个公布的骚操作,想想2021年兔子的矿工直接把老黄的driver hack了,丫的挖矿限制尼玛消失了。。biggestballs 写了: 2025年 2月 8日 18:01 本来不想再回,看你这么积极讨论就多说几句
我们就假设按你说的2 x 4090 = 1 H100,从datacenter部署的角度,这是很难行的通的,要考虑几个问题,不光光是成本:
1. 从用户体验的角度,游戏显卡用作LLM训练慢,用作推理也慢,那用户就要多等才能得到回应,用户是否能接受,你提到NVLink,memory bandwidth不等于network bandwidth,NVLink是指后者,而游戏显卡是GPU memory bandwidth低,也就是GPU core跟memory之间的数据通信慢,LLM训练推理中SM要花大量时间在等待数据上,当今GPU算力并不是瓶颈,而在memory
2. 从silicon的角度,一个compute node能接入的PCIe devices是固定的,假设还是跟H100 DGX一样是8 GPU的话,如果用游戏显卡,需要2倍的compute nodes,那网络layer的各层switch、network cable、power wire都要增加,本质上datacenter大小要增加一倍了,那么相关配套设置成本需要考虑
3. 从power的角度,what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度,cooling占datacenter用电成本的40%,cooling双倍compute nodes成本又会增加多少?
这些因素解释了为什么H100比4090贵的多,不然人人都会用4090来做企业级LLM开发
#15 Re: ds再怎么蹦,也跳不出黄皮夹手心
顶一下 虽然叔看懂40%吧
若用汇编写 跳过编译器 DS还是可以表扬一下 至少完全弄懂了h800/h100 spec, 和编译的功能 才不至于荡机
当然 肯定不影响女大,硬件还是核心
若用汇编写 跳过编译器 DS还是可以表扬一下 至少完全弄懂了h800/h100 spec, 和编译的功能 才不至于荡机
当然 肯定不影响女大,硬件还是核心




