STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。
版主: verdelite, TheMatrix
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
他的大意应该是:目前大资本都在LLM里,2025可能没有大投入在reinforcement learning里。但是未来要实现AGI,reinforcement learning是必须的。
上次由 TheMatrix 在 2025年 1月 7日 16:07 修改。
原因: 未提供修改原因
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
-
wildthing
- 著名点评

- 帖子互动: 277
- 帖子: 4542
- 注册时间: 2022年 7月 22日 14:25
帖子
由 wildthing »
TheMatrix 写了: 2025年 1月 7日 16:07
他的大意应该是:目前大资本都在LLM里,2025可能没有大投入在reinforcement learning里。但是未来要实现AGI,reinforcement learning是必须的。
RL 非常难做。不是可以靠堆机器实现增加功能的
司马光在《资治通鉴》中说日本人:'知小礼而无大义,拘小节而无大德。重末节而无廉耻,畏威而不怀德。强必盗寇,弱必卑伏'。
康熙皇帝在《康熙朝起居注》中这样评论日本人:“倭子国,最是反复无常之国。其人,甚卑贱,不知世上有恩谊,只一味慑于武威……故尔,不得对其有稍许好颜色。”

-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
他的意思大概就是:单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。
有一定道理。因为世界模型不全在语言之中,但是多模态就基本上包含了全部的世界模型。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
wildthing 写了: 2025年 1月 7日 16:14
RL 非常难做。不是可以靠堆机器实现增加功能的
难做就会有平台期。一时间大家找不到路,都在那憋着。然后有一个人找到路,再来一波爆发期。
这样很好。这样才有个人智慧的贡献空间。
现在处在scaling law之中,基本上是线性增长,堆机器和资本,这个阶段个人做不了任何事。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
TheMatrix 写了: 2025年 1月 7日 16:16
他的意思大概就是:单靠大语言模型 + reinforcement learning 是得不到AGI的。但是多模态大模型 + reinforcement learning是可以得到AGI的。
有一定道理。因为世界模型不全在语言之中,但是多模态就基本上包含了全部的世界模型。
这是李飞飞的:Thinking in Space.
https://arxiv.org/pdf/2412.14171

-
mmking(上水)
- 论坛支柱

- 帖子互动: 1525
- 帖子: 11300
- 注册时间: 2023年 1月 25日 05:10
帖子
由 mmking(上水) »
RL的瓶颈从被发明开始就有了
-
wdong(万事休)
- 见习作家

- 帖子互动: 101
- 帖子: 421
- 注册时间: 2023年 11月 13日 15:13
帖子
由 wdong(万事休) »
TheMatrix 写了: 2025年 1月 7日 16:26
难做就会有平台期。一时间大家找不到路,都在那憋着。然后有一个人找到路,再来一波爆发期。
这样很好。这样才有个人智慧的贡献空间。
现在处在scaling law之中,基本上是线性增长,堆机器和资本,这个阶段个人做不了任何事。
高见!
个人认为至少目前形态的RL不是出路,因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL,但是需要碰。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
飞飞的方向是对的啊:

-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
wdong 写了: 2025年 1月 7日 17:00
高见!
个人认为至少目前形态的RL不是出路,因为这里面钱投得已经不少了。未来的出路可能是某种形势的RL,但是需要碰。
谢谢。
李飞飞那篇visual-spatial intelligence的文章你看过了吧?
我刚看完。我觉得她的方向是对的。
世界知识的大部分在视觉中。那按照LLM成功的方法,不就应该大量喂视频数据吗?开始的时候用supervised learning,李飞飞做了VSI-Bench,其中的问题就是问:
1,视频中有多少个苹果?
2,苹果在香蕉的左边还是右边?
3,苹果距离香蕉远,还是距离茶杯远?
这样的视频数据,再加上这样的问题答案,这样训练不就可以(理论上)重复LLM的成功吗?
-
knockwood
- 职业作家

- 帖子互动: 32
- 帖子: 621
- 注册时间: 2022年 12月 15日 19:04
帖子
由 knockwood »

外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了?哪位大牛回答一下呗
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 270
- 帖子: 13487
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
knockwood 写了: 2025年 1月 10日 14:23

外行完全看不懂。就问问特斯拉的cybertaxi跟机器人是不是用现在的模型就足够训练出来了?哪位大牛回答一下呗
现在最火的AI模型是LLM,大语言模型,以及多模态大语言模型。就是OpenAI搞的那些。
这和自动驾驶以及机器人不是一个赛道。机器人主要还是传统的工业控制模型,自动驾驶是传统视觉模型。目前阶段它们和大语言模型应该是很不同的。但是未来它们可能会基于大语言模型,再加上各自的控制部分,也就是AI agent的道路。
-
knockwood
- 职业作家

- 帖子互动: 32
- 帖子: 621
- 注册时间: 2022年 12月 15日 19:04
帖子
由 knockwood »
looks promising.