DS连cuda都不用
版主: 牛河梁
#1 DS连cuda都不用
还调库呢,连cuda都不用
某几条自称搞AI的,请学习这是什么意思
========
DeepSeek 团队神操作:用“汇编”取代CUDA 让性能狂飙!
来源:EETOP
在人工智能领域,DeepSeek 引发了巨大轰动。它借助由 2048 块英伟达 H800 GPU 组成的集群,仅用约两个月时间就完成了拥有 6710 亿参数的混合专家(MoE)语言模型训练,效率比 Meta 等人工智能行业领军企业高出 10 倍。据 @Jukanlosreve 援引韩国未来资产证券(Mirae Asset Securities Korea)的分析,这一突破得益于大量细粒度的优化措施,以及采用了类似汇编语言的英伟达并行线程执行(PTX)编程,而非英伟达的 CUDA 编程。
英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。PTX 处于高级 GPU 编程语言(如 CUDA C/C++ 或其他语言前端)与低级机器代码(流式汇编,即 SASS)之间。PTX 是一种接近硬件底层的指令集架构,它将 GPU 视为数据并行计算设备,因而能够实现细粒度的优化操作,例如寄存器分配以及线程 / 线程束级别的调整,而这些功能是 CUDA C/C++ 等其他编程语言所无法实现的。一旦将 PTX 转换为 SASS,便会针对特定一代的英伟达 GPU 进行优化处理。
例如,在训练其 V3 模型时,DeepSeek 对英伟达 H800 GPU 进行了重新配置:在 132 个流式多处理器中,专门分配了 20 个用于服务器间的通信任务,此举可能是为了对数据进行压缩和解压缩处理,以克服处理器的连接限制,进而加快数据传输速度。为了最大限度地提升性能,DeepSeek 还采用了先进的流水线算法,可能还进行了更为精细的线程 / 线程束级别的调整操作。
这些改进措施远远超出了标准的 CUDA 级开发范畴,然而,其维护难度极高已是业内公认的事实。因此,这种程度的优化成果充分体现了 DeepSeek 工程师团队卓越的技术水平。受美国相关限制措施的影响,全球 GPU 短缺问题进一步加剧,这迫使像 DeepSeek 这样的企业不得不采取创新解决方案,而 DeepSeek 也成功实现了技术突破。然而,目前尚无法明确 DeepSeek 为取得这些成果在研发过程中投入的资金数额。
这一突破性进展对市场造成了一定的冲击,部分投资者认为,新的人工智能模型对高性能硬件的需求将会降低,这对英伟达等公司的产品销售产生了不利影响。行业资深人士,如英特尔前首席执行官帕特・基辛格则认为,人工智能等应用领域能够充分利用其所能获取的全部计算能力。对于 DeepSeek 的这一突破,基辛格认为这为在大众市场中的大量廉价设备中集成人工智能技术提供了可行途径。OpenAI 首席执行官山姆・阿尔特曼也对 DeepSeek 给予了 “令人印象深刻” 的评价。然而在 2023 年,他曾表示与 DeepSeek 展开竞争几乎是不可能之事。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。
某几条自称搞AI的,请学习这是什么意思
========
DeepSeek 团队神操作:用“汇编”取代CUDA 让性能狂飙!
来源:EETOP
在人工智能领域,DeepSeek 引发了巨大轰动。它借助由 2048 块英伟达 H800 GPU 组成的集群,仅用约两个月时间就完成了拥有 6710 亿参数的混合专家(MoE)语言模型训练,效率比 Meta 等人工智能行业领军企业高出 10 倍。据 @Jukanlosreve 援引韩国未来资产证券(Mirae Asset Securities Korea)的分析,这一突破得益于大量细粒度的优化措施,以及采用了类似汇编语言的英伟达并行线程执行(PTX)编程,而非英伟达的 CUDA 编程。
英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。PTX 处于高级 GPU 编程语言(如 CUDA C/C++ 或其他语言前端)与低级机器代码(流式汇编,即 SASS)之间。PTX 是一种接近硬件底层的指令集架构,它将 GPU 视为数据并行计算设备,因而能够实现细粒度的优化操作,例如寄存器分配以及线程 / 线程束级别的调整,而这些功能是 CUDA C/C++ 等其他编程语言所无法实现的。一旦将 PTX 转换为 SASS,便会针对特定一代的英伟达 GPU 进行优化处理。
例如,在训练其 V3 模型时,DeepSeek 对英伟达 H800 GPU 进行了重新配置:在 132 个流式多处理器中,专门分配了 20 个用于服务器间的通信任务,此举可能是为了对数据进行压缩和解压缩处理,以克服处理器的连接限制,进而加快数据传输速度。为了最大限度地提升性能,DeepSeek 还采用了先进的流水线算法,可能还进行了更为精细的线程 / 线程束级别的调整操作。
这些改进措施远远超出了标准的 CUDA 级开发范畴,然而,其维护难度极高已是业内公认的事实。因此,这种程度的优化成果充分体现了 DeepSeek 工程师团队卓越的技术水平。受美国相关限制措施的影响,全球 GPU 短缺问题进一步加剧,这迫使像 DeepSeek 这样的企业不得不采取创新解决方案,而 DeepSeek 也成功实现了技术突破。然而,目前尚无法明确 DeepSeek 为取得这些成果在研发过程中投入的资金数额。
这一突破性进展对市场造成了一定的冲击,部分投资者认为,新的人工智能模型对高性能硬件的需求将会降低,这对英伟达等公司的产品销售产生了不利影响。行业资深人士,如英特尔前首席执行官帕特・基辛格则认为,人工智能等应用领域能够充分利用其所能获取的全部计算能力。对于 DeepSeek 的这一突破,基辛格认为这为在大众市场中的大量廉价设备中集成人工智能技术提供了可行途径。OpenAI 首席执行官山姆・阿尔特曼也对 DeepSeek 给予了 “令人印象深刻” 的评价。然而在 2023 年,他曾表示与 DeepSeek 展开竞争几乎是不可能之事。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。
x1
此生无悔入华夏,家住加利福利亚

#2 Re: DS连cuda都不用
证明没用女大芯片SOD 写了: 2025年 1月 30日 12:14 还调库呢,连cuda都不用
某几条自称搞AI的,请学习这是什么意思
========
DeepSeek 团队神操作:用“汇编”取代CUDA 让性能狂飙!
来源:EETOP
在人工智能领域,DeepSeek 引发了巨大轰动。它借助由 2048 块英伟达 H800 GPU 组成的集群,仅用约两个月时间就完成了拥有 6710 亿参数的混合专家(MoE)语言模型训练,效率比 Meta 等人工智能行业领军企业高出 10 倍。据 @Jukanlosreve 援引韩国未来资产证券(Mirae Asset Securities Korea)的分析,这一突破得益于大量细粒度的优化措施,以及采用了类似汇编语言的英伟达并行线程执行(PTX)编程,而非英伟达的 CUDA 编程。
英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。PTX 处于高级 GPU 编程语言(如 CUDA C/C++ 或其他语言前端)与低级机器代码(流式汇编,即 SASS)之间。PTX 是一种接近硬件底层的指令集架构,它将 GPU 视为数据并行计算设备,因而能够实现细粒度的优化操作,例如寄存器分配以及线程 / 线程束级别的调整,而这些功能是 CUDA C/C++ 等其他编程语言所无法实现的。一旦将 PTX 转换为 SASS,便会针对特定一代的英伟达 GPU 进行优化处理。
例如,在训练其 V3 模型时,DeepSeek 对英伟达 H800 GPU 进行了重新配置:在 132 个流式多处理器中,专门分配了 20 个用于服务器间的通信任务,此举可能是为了对数据进行压缩和解压缩处理,以克服处理器的连接限制,进而加快数据传输速度。为了最大限度地提升性能,DeepSeek 还采用了先进的流水线算法,可能还进行了更为精细的线程 / 线程束级别的调整操作。
这些改进措施远远超出了标准的 CUDA 级开发范畴,然而,其维护难度极高已是业内公认的事实。因此,这种程度的优化成果充分体现了 DeepSeek 工程师团队卓越的技术水平。受美国相关限制措施的影响,全球 GPU 短缺问题进一步加剧,这迫使像 DeepSeek 这样的企业不得不采取创新解决方案,而 DeepSeek 也成功实现了技术突破。然而,目前尚无法明确 DeepSeek 为取得这些成果在研发过程中投入的资金数额。
这一突破性进展对市场造成了一定的冲击,部分投资者认为,新的人工智能模型对高性能硬件的需求将会降低,这对英伟达等公司的产品销售产生了不利影响。行业资深人士,如英特尔前首席执行官帕特・基辛格则认为,人工智能等应用领域能够充分利用其所能获取的全部计算能力。对于 DeepSeek 的这一突破,基辛格认为这为在大众市场中的大量廉价设备中集成人工智能技术提供了可行途径。OpenAI 首席执行官山姆・阿尔特曼也对 DeepSeek 给予了 “令人印象深刻” 的评价。然而在 2023 年,他曾表示与 DeepSeek 展开竞争几乎是不可能之事。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 422
- 帖子: 3900
- 注册时间: 2024年 2月 5日 19:42
#3 Re: DS连cuda都不用
这就是DeepSeek没有公开training source code的原因,而且对于用户来讲,这些代码没用,训练好的model才有用
Devil doesn't need an advocate
#5 Re: DS连cuda都不用
用了,但说明完全可以不用女大
女大主导地位唯一原因是CUDA,没有这个搞深度学习痛苦不堪,等于不允许你用铲子。
但DS直接自己用汇编,有这个级别能力的公司,全球屈指可数。
但是你看光是国际信奥金牌就4快,完全具有这个能力
实际上,不谈软件行业,对硬件行业也是突破性进展。
从此,各个GPU就都能用了,AMD,intel,华为,摩尔线城全都可以用
此生无悔入华夏,家住加利福利亚

-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 422
- 帖子: 3900
- 注册时间: 2024年 2月 5日 19:42
#7 Re: DS连cuda都不用
不用女大用什么?你自己的文章里写了:英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。SOD 写了: 2025年 1月 30日 12:20 用了,但说明完全可以不用女大
女大主导地位唯一原因是CUDA,没有这个搞深度学习痛苦不堪,等于不允许你用铲子。
但DS直接自己用汇编,有这个级别能力的公司,全球屈指可数。
但是你看光是国际信奥金牌就4快,完全具有这个能力
实际上,不谈软件行业,对硬件行业也是突破性进展。
从此,各个GPU就都能用了,AMD,intel,华为,摩尔线城全都可以用
Devil doesn't need an advocate
#8 Re: DS连cuda都不用
对 把女大护城河绝了个口子SOD 写了: 2025年 1月 30日 12:20 用了,但说明完全可以不用女大
女大主导地位唯一原因是CUDA,没有这个搞深度学习痛苦不堪,等于不允许你用铲子。
但DS直接自己用汇编,有这个级别能力的公司,全球屈指可数。
但是你看光是国际信奥金牌就4快,完全具有这个能力
实际上,不谈软件行业,对硬件行业也是突破性进展。
从此,各个GPU就都能用了,AMD,intel,华为,摩尔线城全都可以用
班上老逼将还在denial 阶段
花姐已经在周二撤退了
x1
#9 Re: DS连cuda都不用
看前一句biggestballs 写了: 2025年 1月 30日 12:22 不用女大用什么?你自己的文章里写了:英伟达的并行线程执行(PTX)是英伟达公司专为其图形处理器(GPU)设计的一种中间指令集架构。
此生无悔入华夏,家住加利福利亚

-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 422
- 帖子: 3900
- 注册时间: 2024年 2月 5日 19:42
-
biggestballs(--> mediumballs)
- 著名点评

- 帖子互动: 422
- 帖子: 3900
- 注册时间: 2024年 2月 5日 19:42
#14 Re: DS连cuda都不用
汇编是针对某一特定指令集的,也就是高度硬件绑定的,PTX是女大开发的,对于其他非女大GPU不work,DeepSeek不用女大GPU(现阶段)是做不到的,除非AMD也开发一款针对它家GPU的汇编语言
AMD做的软件编程接口ROCm死难用不说,还套壳CUDA,你觉得有可能有市场?
x1
Devil doesn't need an advocate
#15 Re: DS连cuda都不用
你说呢?biggestballs 写了: 2025年 1月 30日 12:37 汇编是针对某一特定指令集的,也就是高度硬件绑定的,PTX是女大开发的,对于其他非女大GPU不work,DeepSeek不用女大GPU(现阶段)是做不到的,除非AMD也开发一款针对它家GPU的汇编语言
AMD做的软件编程接口ROCm死难用不说,还套壳CUDA,你觉得有可能有市场?
此生无悔入华夏,家住加利福利亚

-
georgewbush(乔治.沃克.布什)
- 正式会员

- 帖子互动: 1
- 帖子: 21
- 注册时间: 2022年 10月 17日 14:24







