敢为天下人先！就是DeepSeek 正在做的事情...

happens · 帖子由 **happens** » 2024年 12月 29日 08:29

xiaoju 写了： 2024年 12月 29日 08:27 报告写得很清楚，pretrain只花了500万刀，SFT大概花了几千

而且他们是直接用了float8加MoE，而不是像openai传统手段那样float32做出来后量化

现在业界正在加班研究，到底是什么东西实现了突破

现在OpenAI的奥特曼已经出离愤怒，指桑骂槐了

这个进步是实实在在的，我老对大模型的信心提升了几分。

赖美豪中

你把人家跑过得模型拿来直接用，花费是0.他自己都承认他预处理得是T级别得token，这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型，跑过得model拿来刷token的确是条思路

xiaoju 写了： 2024年 12月 29日 08:27 报告写得很清楚，pretrain只花了500万刀，SFT大概花了几千

而且他们是直接用了float8加MoE，而不是像openai传统手段那样float32做出来后量化

现在业界正在加班研究，到底是什么东西实现了突破

现在OpenAI的奥特曼已经出离愤怒，指桑骂槐了

xiaoju

OpenAI和特斯拉的元老Andrej Karpathy第一时间就出来背书的东西，几个老逼犟真是螳臂当车自取其辱

happens 写了： 2024年 12月 29日 08:29 这个进步是实实在在的，我老对大模型的信心提升了几分。

xiaoju

麻痹你能不能找个AI把他们的报告解读一遍，搞清人家到底说了什么再扯？

赖美豪中写了： 2024年 12月 29日 08:30 你把人家跑过得模型拿来直接用，花费是0.他自己都承认他预处理得是T级别得token，这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型，跑过得model拿来刷token的确是条思路

xiaoju

我的印象中，这是人类历史上首次基于稀疏激活的SOTA模型，至少在CV和NLP领域里

稀疏激活是人脑的基本特征之一，正常大脑的最大功率只能支持10%的神经元工作

happens 写了： 2024年 12月 29日 08:29 这个进步是实实在在的，我老对大模型的信心提升了几分。

UncleTony

xiaoju 写了： 2024年 12月 29日 08:22 我觉得没那么快，毕竟现在大部分Nvidia的股东并不懂技术

但是空头一定会悄悄增加很多

都是在猜... 明天股市开门就知道了投资人是什么评估的

新未名空间

敢为天下人先！就是DeepSeek 正在做的事情...

#22 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#23 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#24 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#25 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#26 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#27 Re: 敢为天下人先！就是DeepSeek 正在做的事情...