lecun认为LLM这种的训练方法只适合离散的token,对图像这样的连续变量不行,效果不理想。
他们现在探索的思路,是训练predict不是在pixel 图像这个层次,而是在latent space。所以学习的是latent space的dyanmaics。所谓的joint embeding predictive architecture.
但是训练很困难,因为latent space很容易collapse成constant,达到最高prediction正确率。所以加了很多手工cost function。
https://ai.meta.com/blog/v-jepa-yann-le ... hitecture/
Lecun做world model的办法JEPA
版主: verdelite, TheMatrix
-
- 论坛元老
Caravel 的博客 - 帖子互动: 689
- 帖子: 27219
- 注册时间: 2022年 7月 24日 17:21