ds再怎么蹦,也跳不出黄皮夹手心

股市相关讨论

版主: 牛河梁

头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#1 ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

ds号称算力只需要1/10,用户和英伟达三万刀一块的B200拜拜了
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#2 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

然后呢,去抢两千刀一块的英伟达RTX5090

RTX5090不需要台积电的CoWoS技术,没有生产瓶颈,要多少生产多少,管够
biggestballs(--> mediumballs)
著名点评
著名点评
帖子互动: 429
帖子: 3922
注册时间: 2024年 2月 5日 19:42

#3 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 biggestballs(--> mediumballs) »

游戏显卡不是拿来训练的
Devil doesn't need an advocate
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#4 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

尼玛,一个ds,坑完openAI,又坑了台积电。

CoWoS是台积电垄断技术,开价多少,女大就得付多少。

ds帮女大省钱了,难怪黄皮夹不出面评论ds,怕是控制不住当面大笑起来。
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#5 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

biggestballs 写了: 2025年 2月 8日 14:01 游戏显卡不是拿来训练的
股版里真懂AI的三个半,你是那半个
biggestballs(--> mediumballs)
著名点评
著名点评
帖子互动: 429
帖子: 3922
注册时间: 2024年 2月 5日 19:42

#6 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 biggestballs(--> mediumballs) »

jiml 写了: 2025年 2月 8日 14:07 股版里真懂AI的三个半,你是那半个
我懂不懂AI,轮不到你这个外行来评价
Devil doesn't need an advocate
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#7 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

biggestballs 写了: 2025年 2月 8日 14:08 我懂不懂AI,轮不到你这个外行来评价
***子在118时候炒底女大
你呢,诈唬女大跌到一百以下

没比较没伤害,有比较,赫赫,你在股票上的道行,比***子差,你承认不承认?
软软ai中心拔插网络线的technician都比你有更多的ai知识
上次由 牛河梁 在 2025年 2月 16日 12:25 修改。
原因: 被投诉用词不文明
anesthetic
知名作家
知名作家
帖子互动: 103
帖子: 1118
注册时间: 2022年 8月 30日 01:02

#8 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 anesthetic »

biggestballs 写了: 2025年 2月 8日 14:01 游戏显卡不是拿来训练的
国内很多公司都是用3090 4090训练啊,黄皮衣在535driver以后开了nvlink的backdoor,2x4090几乎等于h100了
biggestballs(--> mediumballs)
著名点评
著名点评
帖子互动: 429
帖子: 3922
注册时间: 2024年 2月 5日 19:42

#9 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 biggestballs(--> mediumballs) »

anesthetic 写了: 2025年 2月 8日 15:47 国内很多公司都是用3090 4090训练啊,黄皮衣在535driver以后开了nvlink的backdoor,2x4090几乎等于h100了
用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU,所以企业级LLM没人用游戏显卡,自己local跑跑可以

我刚又去查了一下,GPU memory bandwidth也差不少
Devil doesn't need an advocate
anesthetic
知名作家
知名作家
帖子互动: 103
帖子: 1118
注册时间: 2022年 8月 30日 01:02

#10 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 anesthetic »

biggestballs 写了: 2025年 2月 8日 15:57 用游戏显卡训练最大的问题是GPU memory比不上Datacenter专用GPU,所以企业级LLM没人用游戏显卡,自己local跑跑可以

我刚又去查了一下,GPU memory bandwidth也差不少
完全可以跑,就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。

kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。
biggestballs(--> mediumballs)
著名点评
著名点评
帖子互动: 429
帖子: 3922
注册时间: 2024年 2月 5日 19:42

#11 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 biggestballs(--> mediumballs) »

anesthetic 写了: 2025年 2月 8日 16:08 完全可以跑,就是慢一些而已。cuda本身可以用shared system memory for VRAM。GPU vram不够就用half system ram顶上。

kimi最早就是在anygpu上面用3090跑的。现在算你云的主力仍然是3090 4090。
你说的4090的VRAM就是24 GB,H100的是80 GB,还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/s

LLM训练的三大性能瓶颈:算力(这个两款GPU都够用)、GPU memory、GPU memory bandwidth,后两者的差距太大了,最后的训练性能tokens/s差很多,所以美国这边大厂没人用游戏显卡,就算中国那边受GPU禁售限制,用H800也比用游戏显卡性能更好

你说的中国有公司用游戏显卡,这个我不了解,美国这边的情况我比较清楚,中国公司用性能换成本,也可以理解
Devil doesn't need an advocate
anesthetic
知名作家
知名作家
帖子互动: 103
帖子: 1118
注册时间: 2022年 8月 30日 01:02

#12 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 anesthetic »

biggestballs 写了: 2025年 2月 8日 16:20 你说的4090的VRAM就是24 GB,H100的是80 GB,还不说H100的bandwidth是3.35 TB/s吊打4090的1 TB/s

LLM训练的三大性能瓶颈:算力(这个两款GPU都够用)、GPU memory、GPU memory bandwidth,后两者的差距太大了,最后的训练性能tokens/s差很多,所以美国这边大厂没人用游戏显卡,就算中国那边受GPU禁售限制,用H800也比用游戏显卡性能更好

你说的中国有公司用游戏显卡,这个我不了解,美国这边的情况我比较清楚,中国公司用性能换成本,也可以理解
3090 4090有nvlink啊,24x2, 加上stream processor做compressor,bandwidth都不是问题

你去pytorch的论坛搜搜,2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366
biggestballs(--> mediumballs)
著名点评
著名点评
帖子互动: 429
帖子: 3922
注册时间: 2024年 2月 5日 19:42

#13 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 biggestballs(--> mediumballs) »

anesthetic 写了: 2025年 2月 8日 16:51 3090 4090有nvlink啊,24x2, 加上stream processor做compressor,bandwidth都不是问题

你去pytorch的论坛搜搜,2x4090不比h100差多少
https://discuss.pytorch.org/t/ddp-train ... 118/168366
本来不想再回,看你这么积极讨论就多说几句

我们就假设按你说的2 x 4090 = 1 H100,从datacenter部署的角度,这是很难行的通的,要考虑几个问题,不光光是成本:

1. 从用户体验的角度,游戏显卡用作LLM训练慢,用作推理也慢,那用户就要多等才能得到回应,用户是否能接受,你提到NVLink,memory bandwidth不等于network bandwidth,NVLink是指后者,而游戏显卡是GPU memory bandwidth低,也就是GPU core跟memory之间的数据通信慢,LLM训练推理中SM要花大量时间在等待数据上,当今GPU算力并不是瓶颈,而在memory
2. 从silicon的角度,一个compute node能接入的PCIe devices是固定的,假设还是跟H100 DGX一样是8 GPU的话,如果用游戏显卡,需要2倍的compute nodes,那网络layer的各层switch、network cable、power wire都要增加,本质上datacenter大小要增加一倍了,那么相关配套设置成本需要考虑
3. 从power的角度,what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度,cooling占datacenter用电成本的40%,cooling双倍compute nodes成本又会增加多少?

这些因素解释了为什么H100比4090贵的多,不然人人都会用4090来做企业级LLM开发
x1 图片
Devil doesn't need an advocate
anesthetic
知名作家
知名作家
帖子互动: 103
帖子: 1118
注册时间: 2022年 8月 30日 01:02

#14 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 anesthetic »

biggestballs 写了: 2025年 2月 8日 18:01 本来不想再回,看你这么积极讨论就多说几句

我们就假设按你说的2 x 4090 = 1 H100,从datacenter部署的角度,这是很难行的通的,要考虑几个问题,不光光是成本:

1. 从用户体验的角度,游戏显卡用作LLM训练慢,用作推理也慢,那用户就要多等才能得到回应,用户是否能接受,你提到NVLink,memory bandwidth不等于network bandwidth,NVLink是指后者,而游戏显卡是GPU memory bandwidth低,也就是GPU core跟memory之间的数据通信慢,LLM训练推理中SM要花大量时间在等待数据上,当今GPU算力并不是瓶颈,而在memory
2. 从silicon的角度,一个compute node能接入的PCIe devices是固定的,假设还是跟H100 DGX一样是8 GPU的话,如果用游戏显卡,需要2倍的compute nodes,那网络layer的各层switch、network cable、power wire都要增加,本质上datacenter大小要增加一倍了,那么相关配套设置成本需要考虑
3. 从power的角度,what's the power requirements if compute nodes double? do we have enough voltage for the doubled power draw? can we afford the power bill? all the logistics stuff needs to be reconsidered and even compromised, which can be very tricky.
4. 从cooling的角度,cooling占datacenter用电成本的40%,cooling双倍compute nodes成本又会增加多少?

这些因素解释了为什么H100比4090贵的多,不然人人都会用4090来做企业级LLM开发
所以说你就是个莓果devops,压根不知道这个DS怎么运作的。。。DS直接把20个streaming processor改成compressor/depressor,memory bandwidth直接形同虚设了。这还只是一个公布的骚操作,想想2021年兔子的矿工直接把老黄的driver hack了,丫的挖矿限制尼玛消失了。。
microdsp
见习点评
见习点评
帖子互动: 60
帖子: 1283
注册时间: 2022年 7月 30日 01:59

#15 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 microdsp »

顶一下 虽然叔看懂40%吧

若用汇编写 跳过编译器 DS还是可以表扬一下 至少完全弄懂了h800/h100 spec, 和编译的功能 才不至于荡机

当然 肯定不影响女大,硬件还是核心
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 950
帖子: 19289
注册时间: 2022年 7月 23日 23:48

#16 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 hahan »

microdsp 写了: 2025年 2月 9日 18:44 顶一下 虽然叔看懂40%吧

若用汇编写 跳过编译器 DS还是可以表扬一下 至少完全弄懂了h800/h100 spec, 和编译的功能 才不至于荡机

当然 肯定不影响女大,硬件还是核心
硬件永远不可能是核心
x1 图片
急急如丧家之犬
忙忙似漏网之鱼
datada
论坛支柱
论坛支柱
帖子互动: 368
帖子: 12958
注册时间: 2022年 7月 29日 15:23

#17 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 datada »

华为昇腾人工智能芯片宣布全面接入DeepSeek的R1模型,这就意味着DeepSeek在技术资源上得到强大的支持。
华为五块相当于一块H100吗?
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#18 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

datada 写了: 2025年 2月 10日 09:06 华为昇腾人工智能芯片宣布全面接入DeepSeek的R1模型,这就意味着DeepSeek在技术资源上得到强大的支持。
华为五块相当于一块H100吗?
华为和芯片有关的消息,都是bluffing
eecandy
著名写手
著名写手
帖子互动: 5
帖子: 280
注册时间: 2022年 10月 26日 06:46

#19 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 eecandy »

jiml 写了: 2025年 2月 10日 10:57 华为和芯片有关的消息,都是bluffing
小鸡毛天天B........J
头像
jiml楼主
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#20 Re: ds再怎么蹦,也跳不出黄皮夹手心

帖子 jiml楼主 »

eecandy 写了: 2025年 2月 10日 10:59 小鸡毛天天B........J
**子,侬*可好?
上次由 牛河梁 在 2025年 2月 16日 12:26 修改。
原因: 被投诉用词不文明
回复

回到 “股海弄潮(Stock)”