#1 Lecun做world model的办法JEPA
发表于 : 2024年 10月 20日 15:15
lecun认为LLM这种的训练方法只适合离散的token,对图像这样的连续变量不行,效果不理想。
他们现在探索的思路,是训练predict不是在pixel 图像这个层次,而是在latent space。所以学习的是latent space的dyanmaics。所谓的joint embeding predictive architecture.
但是训练很困难,因为latent space很容易collapse成constant,达到最高prediction正确率。所以加了很多手工cost function。
https://ai.meta.com/blog/v-jepa-yann-le ... hitecture/
他们现在探索的思路,是训练predict不是在pixel 图像这个层次,而是在latent space。所以学习的是latent space的dyanmaics。所谓的joint embeding predictive architecture.
但是训练很困难,因为latent space很容易collapse成constant,达到最高prediction正确率。所以加了很多手工cost function。
https://ai.meta.com/blog/v-jepa-yann-le ... hitecture/