AI模型的bootstrap

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 268
帖子: 13445
注册时间: 2022年 7月 26日 00:35

#1 AI模型的bootstrap

帖子 TheMatrix楼主 »

电脑语言有一个bootstrap的过程,第一个C语言是怎么写出来的?那时只有汇编,所以它只能用汇编写出来。这叫bootstrap。有了第一个版本的C语言,第二个版本的C语言就不用汇编写了,直接用第一个版本的C语言写。和汇编写的一样好,甚至更好。然后是第三个版本C语言,第四个版本C语言,...,之后还有其他语言的出现。

AI模型也有bootstrap。第一个版本是OpenAI的ChatGPT 3.5。这是开天辟地,它的功绩谁也否认不了。第二个版本是ChatGPT 4.0,不过这个好像是完全的从头训练,当时OpenAI好像并没有找到bootstrap的方法。

第一个找到AI模型bootstrap的方法的,是DeepSeek。在ChatGPT 4.0基础上,蒸馏高质量训练数据,得到了DeepSeek v3。相当于不用汇编写程序而用C写程序了。

然后就会有各种各样方向上的bootstrap。

比如,在基础模型上想办法训练reasoning。现在的方法就是准备高质量的chain of thought数据。所谓post training,都是在基础模型上的bootstrap。

再比如,AlphaGeometry2,也是有一个基础模型,之后再准备高质量的平面几何数据,做post training,就得到平面几何方向上的专业模型。

可以想象,模型的bootstrap也是一层一层的,不一定都在最开始的基础模型上训练。模型的训练会像一个树一样生长。
x4 图片
上次由 TheMatrix 在 2025年 2月 17日 21:31 修改。
原因: 未提供修改原因

标签/Tags:
honyi97(Nijiang)
论坛点评
论坛点评
帖子互动: 224
帖子: 2065
注册时间: 2022年 10月 19日 22:59

#2 Re: AI模型的bootstrap

帖子 honyi97(Nijiang) »

如果是追求不同呢?chatGPT4从头训练,可能是3.5有不可逾越的问题,如果从4.0上蒸馏数据,的模型无法超于4.0,那么对于openai来讲是毫无意义的。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 648
帖子: 26314
注册时间: 2022年 7月 24日 17:21

#3 Re: AI模型的bootstrap

帖子 Caravel »

TheMatrix 写了: 2025年 2月 17日 21:31 电脑语言有一个bootstrap的过程,第一个C语言是怎么写出来的?那时只有汇编,所以它只能用汇编写出来。这叫bootstrap。有了第一个版本的C语言,第二个版本的C语言就不用汇编写了,直接用第一个版本的C语言写。和汇编写的一样好,甚至更好。然后是第三个版本C语言,第四个版本C语言,...,之后还有其他语言的出现。

AI模型也有bootstrap。第一个版本是OpenAI的ChatGPT 3.5。这是开天辟地,它的功绩谁也否认不了。第二个版本是ChatGPT 4.0,不过这个好像是完全的从头训练,当时OpenAI好像并没有找到bootstrap的方法。

第一个找到AI模型bootstrap的方法的,是DeepSeek。在ChatGPT 4.0基础上,蒸馏高质量训练数据,得到了DeepSeek v3。相当于不用汇编写程序而用C写程序了。

然后就会有各种各样方向上的bootstrap。

比如,在基础模型上想办法训练reasoning。现在的方法就是准备高质量的chain of thought数据。所谓post training,都是在基础模型上的bootstrap。

再比如,AlphaGeometry2,也是有一个基础模型,之后再准备高质量的平面几何数据,做post training,就得到平面几何方向上的专业模型。

可以想象,模型的bootstrap也是一层一层的,不一定都在最开始的基础模型上训练。模型的训练会像一个树一样生长。
bootstrap就是用强化学习生成长思维链解决数学和coding的问题。为什么是这两个,因为这两个很容易判断正确错误。 这些问题算出来之后,可以简化思维链,回去train base model.

这就好比牛顿摸索了一辈子搞出牛顿定律,这是长思维链,后面的人就没必要这么学,直接灌输高中课本就可以。

这么高上限几乎是无限的。
回复

回到 “STEM”