LLM 与 reinforcement learning

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:04

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:07

他的大意应该是：目前大资本都在LLM里，2025可能没有大投入在reinforcement learning里。但是未来要实现AGI，reinforcement learning是必须的。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:14

wildthing · 帖子由 **wildthing** » 2025年 1月 7日 16:14

TheMatrix 写了： 2025年 1月 7日 16:07 他的大意应该是：目前大资本都在LLM里，2025可能没有大投入在reinforcement learning里。但是未来要实现AGI，reinforcement learning是必须的。

RL 非常难做。不是可以靠堆机器实现增加功能的

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:16

TheMatrix 写了： 2025年 1月 7日 16:14

他的意思大概就是：单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。

有一定道理。因为世界模型不全在语言之中，但是多模态就基本上包含了全部的世界模型。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:26

wildthing 写了： 2025年 1月 7日 16:14 RL 非常难做。不是可以靠堆机器实现增加功能的

难做就会有平台期。一时间大家找不到路，都在那憋着。然后有一个人找到路，再来一波爆发期。

这样很好。这样才有个人智慧的贡献空间。

现在处在scaling law之中，基本上是线性增长，堆机器和资本，这个阶段个人做不了任何事。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 16:45

TheMatrix 写了： 2025年 1月 7日 16:16 他的意思大概就是：单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。

有一定道理。因为世界模型不全在语言之中，但是多模态就基本上包含了全部的世界模型。

这是李飞飞的：Thinking in Space.

https://arxiv.org/pdf/2412.14171

mmking · 帖子由 **mmking（上水）** » 2025年 1月 7日 16:57

RL的瓶颈从被发明开始就有了

wdong

TheMatrix 写了： 2025年 1月 7日 16:26 难做就会有平台期。一时间大家找不到路，都在那憋着。然后有一个人找到路，再来一波爆发期。

这样很好。这样才有个人智慧的贡献空间。

现在处在scaling law之中，基本上是线性增长，堆机器和资本，这个阶段个人做不了任何事。

高见！

个人认为至少目前形态的RL不是出路，因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL，但是需要碰。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 17:28

TheMatrix 写了： 2025年 1月 7日 16:45 这是李飞飞的：Thinking in Space.

https://arxiv.org/pdf/2412.14171

飞飞的方向是对的啊：

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 7日 17:37

wdong 写了： 2025年 1月 7日 17:00 高见！

个人认为至少目前形态的RL不是出路，因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL，但是需要碰。

谢谢。

李飞飞那篇visual-spatial intelligence的文章你看过了吧？

我刚看完。我觉得她的方向是对的。

世界知识的大部分在视觉中。那按照LLM成功的方法，不就应该大量喂视频数据吗？开始的时候用supervised learning，李飞飞做了VSI-Bench，其中的问题就是问：
1，视频中有多少个苹果？
2，苹果在香蕉的左边还是右边？
3，苹果距离香蕉远，还是距离茶杯远？

这样的视频数据，再加上这样的问题答案，这样训练不就可以（理论上）重复LLM的成功吗？

knockwood · 帖子由 **knockwood** » 2025年 1月 10日 14:23

外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了？哪位大牛回答一下呗

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 1月 10日 14:43

knockwood 写了： 2025年 1月 10日 14:23 外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了？哪位大牛回答一下呗

现在最火的AI模型是LLM，大语言模型，以及多模态大语言模型。就是OpenAI搞的那些。

这和自动驾驶以及机器人不是一个赛道。机器人主要还是传统的工业控制模型，自动驾驶是传统视觉模型。目前阶段它们和大语言模型应该是很不同的。但是未来它们可能会基于大语言模型，再加上各自的控制部分，也就是AI agent的道路。

knockwood · 帖子由 **knockwood** » 2025年 1月 10日 15:41

looks promising.

新未名空间

LLM 与 reinforcement learning

#1 LLM 与 reinforcement learning

#2 Re: LLM 与 reinforcement learning

#3 Re: LLM 与 reinforcement learning

#4 Re: LLM 与 reinforcement learning

#5 Re: LLM 与 reinforcement learning

#6 Re: LLM 与 reinforcement learning

#7 Re: LLM 与 reinforcement learning

#8 Re: LLM 与 reinforcement learning

#9 Re: LLM 与 reinforcement learning

#10 Re: LLM 与 reinforcement learning

#11 Re: LLM 与 reinforcement learning

#12 Re: LLM 与 reinforcement learning

#13 Re: LLM 与 reinforcement learning

#14 Re: LLM 与 reinforcement learning