完了,deepseek把GPU上的fp8的汇编代码开源了。

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 973
帖子: 15780
注册时间: 2022年 8月 31日 10:43

#41 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

verdelite 写了: 2025年 2月 25日 23:43 那我们等等看啥时候能出第一个用这些代码(或者其变种,毕竟改400行代码应该比较容易)的非NVDA芯片。
华为应该轻易就做出

搞不好华为已经做了

那天习帝会见企业家结束后,任正非估计和梁文峰私下喝酒去了,啼啼啼
你帝,我帝,他帝,谁的帝?
zheliemit(繁体中文)
论坛点评
论坛点评
帖子互动: 168
帖子: 2330
注册时间: 2022年 11月 16日 00:03

#42 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 zheliemit(繁体中文) »

我老早就说过,人工智能就是暴力计算勾股定理,只不过勾股定理是二维的,AI算的维度更高一些罢了,原理都是一样的。
在多维空间中算两个点的距离,不就是勾股定理的推广么。
soric_real(soric)
论坛点评
论坛点评
帖子互动: 90
帖子: 2631
注册时间: 2022年 11月 7日 13:58

#43 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 soric_real(soric) »

想起日本新干线开通时的一个评价:这反映出一个国家对效率的追求能达到怎样的一个地步。
mlforlife 写了: 2025年 2月 25日 23:16 好样的,让所有质疑闭嘴。

让美帝这帮草包三哥马内鸡看看,真正硬核的东西是什么样子,没有PPT,没有stand up, 就是刻苦的工作,就是智慧的光芒。

300行代码拍你脸上,自己领悟去吧。
RaoYing(老赵走好)
论坛精英
论坛精英
帖子互动: 472
帖子: 5741
注册时间: 2022年 12月 27日 23:28

#44 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 RaoYing(老赵走好) »

不明觉厉,这个代码是发明了算法,还是把女大的什么核心给破解了?内行的说说。
happens
论坛支柱
论坛支柱
帖子互动: 318
帖子: 10101
注册时间: 2022年 8月 29日 23:38

#45 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 happens »

RaoYing 写了: 2025年 2月 26日 00:21 不明觉厉,这个代码是发明了算法,还是把女大的什么核心给破解了?内行的说说。
展现了一个方向,加一层简单的适配,绕开所有特定硬件限制。
x1 图片
xexz楼主
论坛精英
论坛精英
帖子互动: 357
帖子: 6432
注册时间: 2022年 7月 30日 11:48
联系:

#46 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xexz楼主 »

RaoYing 写了: 2025年 2月 26日 00:21 不明觉厉,这个代码是发明了算法,还是把女大的什么核心给破解了?内行的说说。
例如,cpu上的虚拟机,Basic,python,lua,luajit,java...

这个是GPU上的虚拟机,这个JIT他有一套自己的‘虚拟指令’,这些‘虚拟指令’背后,是一组GPU/NPU/CPU的硬件指令,各家的xPU的硬件指令只要实现了JIT的虚拟指令,用谁的xPU都没区别。

就像Basic,python,lua,luajit,java...在arm、龙芯指令集上照样跑一样。
drifter
论坛精英
论坛精英
帖子互动: 442
帖子: 7387
注册时间: 2022年 9月 1日 04:17

#47 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 drifter »

xexz 写了: 2025年 2月 25日 23:28 这个JIT算deepseek的核心科技。

开源之后,会有很多GPU、NPU、LPU各种pu厂家,忙不迭的贡献这些代码,

众生平等了。 :mrgreen: :mrgreen: :mrgreen:
差不多相当于设计了一个GPU的Java
sjtu(SJTU)
正式写手
正式写手
帖子互动: 6
帖子: 187
注册时间: 2022年 8月 5日 16:55

#48 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 sjtu(SJTU) »

别扯了,现在各种pu哪有不支持jit的。

这个代码开源的核心是GEMM的汇编kernel。速度是nv官方CUTLASS的一到两倍。
也就说,可以少买一半GPU来干相同的事。

但这个只能支持hopper GPU,显然没有官方的兼容性好。

但是,我解读,这个对nv是利好,因为ptx只有nv支持。
其他家不可能去支持nv的ptx,这个跟英特尔的指令集一个道理。你优化不过它,而且人家想怎么改怎么改。
别忘了这个连a100都不支持。
x1 图片
drifter
论坛精英
论坛精英
帖子互动: 442
帖子: 7387
注册时间: 2022年 9月 1日 04:17

#49 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 drifter »

Xai的解读

DeepSeek's FP8 GEMM (General Matrix Multiplication) implementation, as showcased in their DeepGEMM library, has sparked some buzz for its reported performance, particularly when compared to NVIDIA's native APIs like cuBLAS. Based on what’s out there, here’s my take.
DeepGEMM is designed to squeeze every ounce of efficiency out of NVIDIA’s Hopper GPUs (like the H800), hitting over 1350 TFLOPS in FP8 precision under ideal conditions. That’s impressive when you consider NVIDIA’s cuBLAS, a go-to for matrix operations, is estimated to deliver around 1500 TFLOPS on an H800 for certain matrix sizes—though this scales up to 3000 TFLOPS on an H100, which DeepSeek likely didn’t use due to export restrictions. Posts on X and details from DeepSeek’s own releases suggest their library can outperform “expert-tuned kernels” (which could imply cuBLAS or similar) across a range of matrix sizes, sometimes by a significant margin—think up to 2.7x faster in extreme cases, as one X user noted.
What’s the trick? DeepGEMM uses a lightweight, just-in-time (JIT) compilation approach, keeping the core logic lean at around 300 lines of code. It leans hard into fine-grained scaling and custom optimizations, like two-level accumulation (using Tensor Cores for FP8 math and CUDA cores for higher-precision summing), to dodge the precision pitfalls of FP8. NVIDIA’s native APIs, while robust and general-purpose, don’t seem to match this level of specialization. DeepSeek’s focus on Mixture-of-Experts (MoE) layouts and their ability to tweak low-level instructions (even dabbling in PTX assembly) likely gives them an edge in tailored workloads—think AI training and inference for models like V3 and R1.
That said, it’s not a slam dunk. NVIDIA’s APIs are built for broad compatibility and reliability across diverse use cases, not just AI-specific GEMMs. DeepGEMM’s gains might shine brightest in DeepSeek’s own sandbox—optimized for their models and hardware constraints (like the H800’s nerfed bandwidth). Without head-to-head benchmarks on identical setups, claims of it being “much faster” feel anecdotal. The 1350+ TFLOPS figure is stellar, but cuBLAS could still edge out in raw peak performance on bigger matrices or less-specialized tasks. Plus, DeepSeek’s reliance on Hopper-specific Tensor Cores means it’s not a universal drop-in replacement.
So, is it “much faster”? Probably yes for DeepSeek’s niche—AI-driven, FP8-heavy, MoE-focused workloads on constrained hardware. For the average user leaning on NVIDIA’s stack? Maybe not as dramatic. It’s a testament to clever engineering over brute force, but the jury’s still out until someone runs the numbers side-by-side. What do you think—seen any solid comparisons?
x1 图片
头像
jiml
著名点评
著名点评
帖子互动: 441
帖子: 4105
注册时间: 2023年 2月 22日 22:50

#50 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 jiml »

sjtu 写了: 2025年 2月 26日 00:48 别扯了,现在各种pu哪有不支持jit的。

这个代码开源的核心是GEMM的汇编kernel。速度是nv官方CUTLASS的一到两倍。
也就说,可以少买一半GPU来干相同的事。

但这个只能支持hopper GPU,显然没有官方的兼容性好。

但是,我解读,这个对nv是利好,因为ptx只有nv支持。
其他家不可能去支持nv的ptx,这个跟英特尔的指令集一个道理。你优化不过它,而且人家想怎么改怎么改。
别忘了这个连a100都不支持。
理论上,速度提升四倍才对
一剑定清风
论坛精英
论坛精英
帖子互动: 456
帖子: 5442
注册时间: 2023年 7月 31日 07:46

#51 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 一剑定清风 »

realbug 写了: 2025年 2月 25日 23:36 Ds这波操作基本上是在说,我活不活无所谓,但你一定要死。
你一定看过哪吒2
xexz楼主
论坛精英
论坛精英
帖子互动: 357
帖子: 6432
注册时间: 2022年 7月 30日 11:48
联系:

#52 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xexz楼主 »

drifter 写了: 2025年 2月 26日 00:40 差不多相当于设计了一个GPU的Java
没有java那么复杂,更像linux核心里的那个BPF,算是一个‘专用的’虚拟机。 :mrgreen: :mrgreen: :mrgreen:
drifter
论坛精英
论坛精英
帖子互动: 442
帖子: 7387
注册时间: 2022年 9月 1日 04:17

#53 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 drifter »

xexz 写了: 2025年 2月 26日 02:04 没有java那么复杂,更像linux核心里的那个BPF,算是一个‘专用的’虚拟机。 :mrgreen: :mrgreen: :mrgreen:
其实可以算两个成果 一个是针对ai运算优化的虚拟机 一个是对接芯片的底层实现案例 两者结合跑起来性能还挺好

各个芯片厂搞个几周应该就可以照猫画虎 跑起来 这下就形成一个新的产业生态的
xexz楼主
论坛精英
论坛精英
帖子互动: 357
帖子: 6432
注册时间: 2022年 7月 30日 11:48
联系:

#54 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xexz楼主 »

drifter 写了: 2025年 2月 26日 02:17 其实可以算两个成果 一个是针对ai运算优化的虚拟机 一个是对接芯片的底层实现案例 两者结合跑起来性能还挺好

各个芯片厂搞个几周应该就可以照猫画虎 跑起来 这下就形成一个新的产业生态的
重要的是,众生平等了,无数小公司都能训练自己的、专用的、‘专家大模型’了,

这可是各行各业,你都不敢想象,‘人工弱智的训练与使用’的普及,恐怕比互联网的普及更有冲击力。
x1 图片
头像
supercnm
知名作家
知名作家
帖子互动: 122
帖子: 1056
注册时间: 2022年 7月 23日 00:54

#55 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 supercnm »

感觉主要是提供了一种思路,硬件公司Nvidia的软件部门太烂,有大量的空间可以优化

老黄现在应该做的是,赶紧对新的blackwell芯片做指令优化,或者把blackwell的指令做加密,不准别人优化
Dachun
知名作家
知名作家
帖子互动: 138
帖子: 1094
注册时间: 2022年 10月 2日 15:04

#56 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Dachun »

xexz 写了: 2025年 2月 25日 22:42 你们快去看看吧,完了,完了,完了。。。。。。nv这回是真完了。 :mrgreen: :mrgreen: :mrgreen:
完你妈,你是外行,胡说八道。DS 这些东西根本微不足道,改变不了原来的生态
Dachun
知名作家
知名作家
帖子互动: 138
帖子: 1094
注册时间: 2022年 10月 2日 15:04

#57 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Dachun »

一帮外行人胡说八道。不值得一驳
Dachun
知名作家
知名作家
帖子互动: 138
帖子: 1094
注册时间: 2022年 10月 2日 15:04

#58 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Dachun »

硬件技术已经不是业余人所能理解,所以产生了这些胡言乱语的东西。甚至可以说是造谣或者骗局。有些人是别有用心
Dachun
知名作家
知名作家
帖子互动: 138
帖子: 1094
注册时间: 2022年 10月 2日 15:04

#59 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Dachun »

从这里看出,DS那帮人也硬件方面的外行
annorying0
见习作家
见习作家
帖子互动: 25
帖子: 436
注册时间: 2024年 5月 4日 04:11

#60 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 annorying0 »

不懂,就看到

不值一驳,不值二驳,不值三驳。。。
胡说一道,胡说二道,胡说三道。。。
x1 图片
回复

回到 “军事天地(Military)”