这个进步是实实在在的,我老对大模型的信心提升了几分。xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千
而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化
现在业界正在加班研究,到底是什么东西实现了突破
现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
敢为天下人先!就是DeepSeek 正在做的事情...
版主: Softfist
#22 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
#23 Re: 敢为天下人先!就是DeepSeek 正在做的事情...
你把人家跑过得模型拿来直接用, 花费是0.他自己都承认他预处理得是T级别得token,这当然就很省钱。现在这些所谓得ai专家都是tmd狗屁不通得玩意。其实本来也没必要大家都跑一堆大模型,跑过得model拿来刷token的确是条思路
			
			
			
xiaoju 写了: 2024年 12月 29日 08:27 报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千
而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化
现在业界正在加班研究,到底是什么东西实现了突破
现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
If printing money would end poverty, printing diplomas would end stupidity.
			
						

