完了,deepseek把GPU上的fp8的汇编代码开源了。

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 178
注册时间: 2023年 9月 4日 00:41

#141 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

Caravel 写了: 2025年 2月 26日 17:16 废话,要得就是减少精度,不然他们怎么省内存
上H200啊。既想要精度又想要规模,那就只能多烧钱,世上哪有那么多便宜的事。
头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 1003
帖子: 15999
注册时间: 2022年 8月 31日 10:43

#142 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

forer 写了: 2025年 2月 26日 17:20 吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。 :D :D :D
不属实

我觉得第三方绝对可以根据这个方案做一个接口

可以绕开nv
你帝,我帝,他帝,谁的帝?
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1051
帖子: 25756
注册时间: 2023年 9月 5日 20:18

#143 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xiaoju(可爱的龙猫) »

你肯定是文科。。。

计算机80年历史,芯片从来都是搬砖的脏累险
forer 写了: 2025年 2月 26日 17:20 吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。 :D :D :D
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 178
注册时间: 2023年 9月 4日 00:41

#144 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

民主自由是婊子的遮羞布 写了: 2025年 2月 26日 17:37 不属实

我觉得第三方绝对可以根据这个方案做一个接口

可以绕开nv
嗯,你有个GPU说明书,就等于有GPU了,连PPT都可以省了 :D
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 178
注册时间: 2023年 9月 4日 00:41

#145 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

xiaoju 写了: 2025年 2月 26日 17:39 你肯定是文科。。。

计算机80年历史,芯片从来都是搬砖的脏累险
芯片和计算机是一回事吗?不懂就别来现眼了
头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 1003
帖子: 15999
注册时间: 2022年 8月 31日 10:43

#146 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

forer 写了: 2025年 2月 26日 17:56 嗯,你有个GPU说明书,就等于有GPU了,连PPT都可以省了 :D
华为升腾GPU team可以
你帝,我帝,他帝,谁的帝?
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1051
帖子: 25756
注册时间: 2023年 9月 5日 20:18

#147 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xiaoju(可爱的龙猫) »

尼玛

小学生不要上外网
forer 写了: 2025年 2月 26日 18:00 芯片和计算机是一回事吗?不懂就别来现眼了
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 178
注册时间: 2023年 9月 4日 00:41

#148 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

民主自由是婊子的遮羞布 写了: 2025年 2月 26日 18:06 华为升腾GPU team可以
用不着华为。N家GPU core芯片源代码国内就有,造不了。
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 178
注册时间: 2023年 9月 4日 00:41

#149 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

xiaoju 写了: 2025年 2月 26日 18:15 尼玛

小学生不要上外网
弱智这就破防跳脚了?
magagop
论坛点评
论坛点评
帖子互动: 198
帖子: 2817
注册时间: 2024年 12月 5日 17:35

#150 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

民主自由是婊子的遮羞布 写了: 2025年 2月 26日 17:37 不属实

我觉得第三方绝对可以根据这个方案做一个接口

可以绕开nv
無知的外行,好像寫個匯編,SASS和x86的ISA就被突破了一樣,你們連GPU到底如何運行的都不知道吧?
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1051
帖子: 25756
注册时间: 2023年 9月 5日 20:18

#151 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 xiaoju(可爱的龙猫) »

尼玛,又是个狗子急了
forer 写了: 2025年 2月 26日 18:17 弱智这就破防跳脚了?
tlihz
小有名气
小有名气
帖子互动: 1
帖子: 43
注册时间: 2022年 11月 3日 03:04

#152 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 tlihz »

简单总结就是:我不信,等有人验证过我才信。让我自己去验证?我又不懂

看来是脸被打的还不够肿
drifter 写了: 2025年 2月 26日 00:58 Xai的解读

DeepSeek's FP8 GEMM (General Matrix Multiplication) implementation, as showcased in their DeepGEMM library, has sparked some buzz for its reported performance, particularly when compared to NVIDIA's native APIs like cuBLAS. Based on what’s out there, here’s my take.
DeepGEMM is designed to squeeze every ounce of efficiency out of NVIDIA’s Hopper GPUs (like the H800), hitting over 1350 TFLOPS in FP8 precision under ideal conditions. That’s impressive when you consider NVIDIA’s cuBLAS, a go-to for matrix operations, is estimated to deliver around 1500 TFLOPS on an H800 for certain matrix sizes—though this scales up to 3000 TFLOPS on an H100, which DeepSeek likely didn’t use due to export restrictions. Posts on X and details from DeepSeek’s own releases suggest their library can outperform “expert-tuned kernels” (which could imply cuBLAS or similar) across a range of matrix sizes, sometimes by a significant margin—think up to 2.7x faster in extreme cases, as one X user noted.
What’s the trick? DeepGEMM uses a lightweight, just-in-time (JIT) compilation approach, keeping the core logic lean at around 300 lines of code. It leans hard into fine-grained scaling and custom optimizations, like two-level accumulation (using Tensor Cores for FP8 math and CUDA cores for higher-precision summing), to dodge the precision pitfalls of FP8. NVIDIA’s native APIs, while robust and general-purpose, don’t seem to match this level of specialization. DeepSeek’s focus on Mixture-of-Experts (MoE) layouts and their ability to tweak low-level instructions (even dabbling in PTX assembly) likely gives them an edge in tailored workloads—think AI training and inference for models like V3 and R1.
That said, it’s not a slam dunk. NVIDIA’s APIs are built for broad compatibility and reliability across diverse use cases, not just AI-specific GEMMs. DeepGEMM’s gains might shine brightest in DeepSeek’s own sandbox—optimized for their models and hardware constraints (like the H800’s nerfed bandwidth). Without head-to-head benchmarks on identical setups, claims of it being “much faster” feel anecdotal. The 1350+ TFLOPS figure is stellar, but cuBLAS could still edge out in raw peak performance on bigger matrices or less-specialized tasks. Plus, DeepSeek’s reliance on Hopper-specific Tensor Cores means it’s not a universal drop-in replacement.
So, is it “much faster”? Probably yes for DeepSeek’s niche—AI-driven, FP8-heavy, MoE-focused workloads on constrained hardware. For the average user leaning on NVIDIA’s stack? Maybe not as dramatic. It’s a testament to clever engineering over brute force, but the jury’s still out until someone runs the numbers side-by-side. What do you think—seen any solid comparisons?
头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 1003
帖子: 15999
注册时间: 2022年 8月 31日 10:43

#153 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

magagop 写了: 2025年 2月 26日 19:23 無知的外行,好像寫個匯編,SASS和x86的ISA就被突破了一樣,你們連GPU到底如何運行的都不知道吧?
过去做过很多的适配接口,不是你丫讲得那么神秘

如果第三家GPU的team一起来,没有搞不定的
你帝,我帝,他帝,谁的帝?
changjiang
论坛精英
论坛精英
帖子互动: 450
帖子: 6636
注册时间: 2022年 7月 22日 21:59

#154 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 changjiang »

happens 写了: 2025年 2月 26日 00:26 展现了一个方向,加一层简单的适配,绕开所有特定硬件限制。
政府禁运高端芯片禁了个寂寞。
magagop
论坛点评
论坛点评
帖子互动: 198
帖子: 2817
注册时间: 2024年 12月 5日 17:35

#155 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

民主自由是婊子的遮羞布 写了: 2025年 2月 26日 22:30 过去做过很多的适配接口,不是你丫讲得那么神秘

如果第三家GPU的team一起来,没有搞不定的
紅藍廠都要放棄了,還沒有搞不定的,你做過GPU麼?
头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 1003
帖子: 15999
注册时间: 2022年 8月 31日 10:43

#156 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

magagop 写了: 2025年 2月 26日 22:40 紅藍廠都要放棄了,還沒有搞不定的,你做過GPU麼?
硬件与上层的适配的原理都一样

GPU有什么特别吗
你帝,我帝,他帝,谁的帝?
magagop
论坛点评
论坛点评
帖子互动: 198
帖子: 2817
注册时间: 2024年 12月 5日 17:35

#157 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

民主自由是婊子的遮羞布 写了: 2025年 2月 26日 22:52 硬件与上层的适配的原理都一样

GPU有什么特别吗
GPU的ISA不公開,隔幾代ISA就大變樣,而且每代都有變化,firmware永遠不公開,脫離driver你什麼都做不了,即使driver開源了,裡面還有大量的binary blob,你不知道是什麼,總之,GPU根本就無法直接操作,需要UMD、KMD、firmware間接操作。你怎麼適配?
头像
民主自由是婊子的遮羞布(谁的帝)
论坛元老
论坛元老
帖子互动: 1003
帖子: 15999
注册时间: 2022年 8月 31日 10:43

#158 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 民主自由是婊子的遮羞布(谁的帝) »

magagop 写了: 2025年 2月 27日 02:09 GPU的ISA不公開,隔幾代ISA就大變樣,而且每代都有變化,firmware永遠不公開,脫離driver你什麼都做不了,即使driver開源了,裡面還有大量的binary blob,你不知道是什麼,總之,GPU根本就無法直接操作,需要UMD、KMD、firmware間接操作。你怎麼適配?
你说的是第三家去适配nv

我说的是华为升腾GPU的team自己去适配DS
你帝,我帝,他帝,谁的帝?
magagop
论坛点评
论坛点评
帖子互动: 198
帖子: 2817
注册时间: 2024年 12月 5日 17:35

#159 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

民主自由是婊子的遮羞布 写了: 2025年 2月 27日 02:26 你说的是第三家去适配nv

我说的是华为升腾GPU的team自己去适配DS
華為芯片就不應該叫GPU,只能叫加速器,昇腾有Graphics能力嗎?
華為加速器如果只支持DeepSeek,除了中國人,不會有其他客戶的,關起門來自己玩當然怎麼做都可以,下場就是龍芯。

我還真的無聊看了看華為昇腾,跟主流架構相去甚遠,性能捉急,硬件相當於2021年代的N-2代產品,軟件需要深度綁定華為,也有一堆runtime、UMD、KMD、firmware,只不過都是華為的,歐美公司和社區肯定不會跳坑的,入教後就相當於鴻蒙,跟主流絕緣了。

「MindX SDK通过对AscendCL编程接口的封装,提供更少更易用的编程接口,简化了使用昇腾AI处理器的进行推理业务开发的过程。CANN(Compute Architecture for Neural Networks)是华为公司针对AI场景推出的异构计算架构,通过提供AscendCL编程接口(支持Python和C++语言),支持用户快速构建基于昇腾AI处理器的AI应用和业务。」

图片
上次由 magagop 在 2025年 2月 27日 03:28 修改。
头像
foofy(自带干粮五毛)
论坛元老
论坛元老
帖子互动: 476
帖子: 16644
注册时间: 2022年 8月 10日 01:38

#160 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 foofy(自带干粮五毛) »

magagop 写了: 2025年 2月 27日 02:53 華為芯片就不應該叫GPU,只能叫加速器,昇腾有Graphics能力嗎?
華為加速器如果只支持DeepSeek,除了中國人,不會有其他客戶的,關起門來自己玩當然怎麼做都可以,下場就是龍芯。
什么叫graphic 能力?有memory就能处理graphic
回复

回到 “军事天地(Military)”