这个进步是实实在在的,我老对大模型的信心提升了几分。xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千
而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化
现在业界正在加班研究,到底是什么东西实现了突破
现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
敢为天下人先!就是DeepSeek 正在做的事情...
版主: Softfist
#22 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
#23 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
你把人家跑过得模型拿来直接用, 花费是0.他自己都承认他预处理得是T级别得token,这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型,跑过得model拿来刷token的确是条思路
xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千
而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化
现在业界正在加班研究,到底是什么东西实现了突破
现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
If printing money would end poverty, printing diplomas would end stupidity.
#25 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
麻痹你能不能找个AI把他们的报告解读一遍,搞清人家到底说了什么再扯?
赖美豪中 写了: 2024年 12月 29日 08:30 你把人家跑过得模型拿来直接用, 花费是0.他自己都承认他预处理得是T级别得token,这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型,跑过得model拿来刷token的确是条思路
#26 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
我的印象中,这是人类历史上首次基于稀疏激活的SOTA模型,至少在CV和NLP领域里
稀疏激活是人脑的基本特征之一,正常大脑的最大功率只能支持10%的神经元工作
稀疏激活是人脑的基本特征之一,正常大脑的最大功率只能支持10%的神经元工作