DeepSeek的4个创新点-显卡资源不足,算法优化补足

生物学,医学,药学,生化和生理功能, 解剖和组织结构, 流行病学和药理学, 细胞和分子生物学、寄生虫学和毒理学。
生物制药相关,包括biotech和pharma,股票分析,工作内推,简历评估,职业规划,研发交流,FDA资讯等。
回复
Tlexander楼主
著名点评
著名点评
帖子互动: 113
帖子: 4046
注册时间: 2022年 7月 22日 17:34

#1 DeepSeek的4个创新点-显卡资源不足,算法优化补足

帖子 Tlexander楼主 »

显卡资源不足,算法优化补足 DeepSeek Math 采用了一种名为 GRPO 的强化学习算法,这是 PPO 的一种变体。GRPO 通过去除 Value Model 大幅降低了训练资源需求,为后续模型的高效训练奠定了基础。(p1)

代码训练提升推理能力 过去一直有传闻称,GPT 在加入代码数据训练后提升了推理能力,但这一点从未被正式验证,甚至在算法圈内颇受质疑。DeepSeek 通过实验证实了这一传闻,为后续推理模型的发展提供了坚实的实验依据。(p2)

统一范式皆为强化学习(RL) DeepSeek 提出了一个统一的范式,以 RL 框架理解不同的代表性训练方法。在该范式中,所有方法都可以被视作直接或简化的 RL 技术。例如,在公式 5 中,方法由三个核心组成部分构成:数据源、算法和奖励函数,并探讨了这些组件的潜在发展方向。(p3)

奖励函数的局限性与新尝试 现有的方法高度依赖奖励函数的信号,但在复杂任务中,这些信号的可靠性无法得到保证。因此,DeepSeek 计划探索对嘈杂奖励信号更具鲁棒性的强化学习算法。这种“从弱到强”的对齐方法有望带来范式性的变革。此外,奖励模型必须具备良好的泛化能力,才能应对分布外问题和高级解码任务,否则强化学习可能仅仅是稳定 LLM 的分布,而非提升其核心能力。这或许也为 R1 Zero 这类激进尝试提供了理论依据。(p4)
回复

回到 “生物医学和制药(Biomedical & Pharmaceutical)”