要大胆想象,何须25万,光25个问题就可以了
(转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方
#22 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方
公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?saibaster 写了: 2025年 2月 1日 13:58 公开能得到的数据已经是天量了。
我自己的训练都能搞到整个wikipedia 和 twitter的
很多卖数据的公司也就是给你做些数据清洗和标注而已。
OpenAI 训练的数据很多也是自己到处扒下来的。
但 Google 和 OpenAI 自己就在局里,怎么可能卖数据。
#24 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方
https://github.com/deepseek-ai/DeepSeek ... ek_R1.pdf
概要
本文介绍了DeepSeek团队开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练,未经过监督微调(SFT),展现出强大的推理能力,但在可读性和语言混杂方面存在问题。为解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程,最终在推理任务上达到与OpenAI-o1-1217相当的性能。此外,团队还通过蒸馏技术将DeepSeek-R1的推理能力转移到较小的密集模型中,开源了多个基于Qwen和Llama的蒸馏模型,这些模型在推理基准测试中表现优异。研究还探讨了通过蒸馏和强化学习提升小型模型推理能力的可能性,并指出了未来研究的方向,包括提升模型的通用能力、解决语言混杂问题、优化提示工程以及提高软件工程任务的性能。
概要
本文介绍了DeepSeek团队开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练,未经过监督微调(SFT),展现出强大的推理能力,但在可读性和语言混杂方面存在问题。为解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程,最终在推理任务上达到与OpenAI-o1-1217相当的性能。此外,团队还通过蒸馏技术将DeepSeek-R1的推理能力转移到较小的密集模型中,开源了多个基于Qwen和Llama的蒸馏模型,这些模型在推理基准测试中表现优异。研究还探讨了通过蒸馏和强化学习提升小型模型推理能力的可能性,并指出了未来研究的方向,包括提升模型的通用能力、解决语言混杂问题、优化提示工程以及提高软件工程任务的性能。
放浪形骸




