Lecun做world model的办法JEPA

版主： verdelite， TheMatrix

1 帖子 • 分页： 1 / 1

Caravel楼主: 论坛元老

Caravel 的博客; 帖子互动： 689; 帖子： 27219; 注册时间： 2022年 7月 24日 17:21

#1 Lecun做world model的办法JEPA

引用

帖子由 Caravel楼主 » 2024年 10月 20日 15:15

lecun认为LLM这种的训练方法只适合离散的token，对图像这样的连续变量不行，效果不理想。

他们现在探索的思路，是训练predict不是在pixel 图像这个层次，而是在latent space。所以学习的是latent space的dyanmaics。所谓的joint embeding predictive architecture.

但是训练很困难，因为latent space很容易collapse成constant，达到最高prediction正确率。所以加了很多手工cost function。

https://ai.meta.com/blog/v-jepa-yann-le ... hitecture/

1 帖子 • 分页： 1 / 1

回到 “STEM”