敢为天下人先!就是DeepSeek 正在做的事情...

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

happens
论坛支柱
论坛支柱
帖子互动: 318
帖子: 10101
注册时间: 2022年 8月 29日 23:38

#22 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 happens »

xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千

而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化

现在业界正在加班研究,到底是什么东西实现了突破

现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
这个进步是实实在在的,我老对大模型的信心提升了几分。
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 4144
帖子: 44732
注册时间: 2022年 9月 6日 12:50

#23 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 赖美豪中(my pronouns: ha/ha) »

你把人家跑过得模型拿来直接用, 花费是0.他自己都承认他预处理得是T级别得token,这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型,跑过得model拿来刷token的确是条思路
xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千

而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化

现在业界正在加班研究,到底是什么东西实现了突破

现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
If printing money would end poverty, printing diplomas would end stupidity.
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1049
帖子: 25637
注册时间: 2023年 9月 5日 20:18

#24 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 xiaoju(可爱的龙猫) »

OpenAI和特斯拉的元老Andrej Karpathy第一时间就出来背书的东西,几个老逼犟真是螳臂当车自取其辱
happens 写了: 2024年 12月 29日 08:29 这个进步是实实在在的,我老对大模型的信心提升了几分。
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1049
帖子: 25637
注册时间: 2023年 9月 5日 20:18

#25 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 xiaoju(可爱的龙猫) »

麻痹你能不能找个AI把他们的报告解读一遍,搞清人家到底说了什么再扯?
赖美豪中 写了: 2024年 12月 29日 08:30 你把人家跑过得模型拿来直接用, 花费是0.他自己都承认他预处理得是T级别得token,这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型,跑过得model拿来刷token的确是条思路
xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1049
帖子: 25637
注册时间: 2023年 9月 5日 20:18

#26 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 xiaoju(可爱的龙猫) »

我的印象中,这是人类历史上首次基于稀疏激活SOTA模型,至少在CV和NLP领域里

稀疏激活是人脑的基本特征之一,正常大脑的最大功率只能支持10%的神经元工作
happens 写了: 2024年 12月 29日 08:29 这个进步是实实在在的,我老对大模型的信心提升了几分。
头像
UncleTony(Tony叔)楼主
自助冻结自助冻结
帖子互动: 163
帖子: 4345
注册时间: 2024年 5月 20日 18:38

#27 Re: 敢为天下人先!就是DeepSeek 正在做的事情...

帖子 UncleTony(Tony叔)楼主 »

xiaoju 写了: 2024年 12月 29日 08:22 我觉得没那么快,毕竟现在大部分Nvidia的股东并不懂技术

但是空头一定会悄悄增加很多
都是在猜... 明天股市开门就知道了 投资人是什么评估的
回复

回到 “军事天地(Military)”