这个题目很重要 - 多模态 next token prediction

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 279
帖子: 13694
注册时间: 2022年 7月 26日 00:35

#1 这个题目很重要 - 多模态 next token prediction

帖子 TheMatrix楼主 »

我还没看,先放在这。

我关注的是数据准备,数据统一,不同来源的数据如何处理以统一。

https://zhuanlan.zhihu.com/p/17728210584

https://arxiv.org/pdf/2412.18619

图片

图片
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#2 Re: 这个题目很重要 - 多模态 next token prediction

帖子 Caravel »

之前看到lecun的报告说,

next token这种办法对图像效果不行

因为图像像素是连续变量,不像token是离散的
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 279
帖子: 13694
注册时间: 2022年 7月 26日 00:35

#3 Re: 这个题目很重要 - 多模态 next token prediction

帖子 TheMatrix楼主 »

Caravel 写了: 2025年 1月 14日 16:07 之前看到lecun的报告说,

next token这种办法对图像效果不行

因为图像像素是连续变量,不像token是离散的
肯定不能用像素做token。
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 4485
帖子: 46395
注册时间: 2022年 9月 6日 12:50

#4 Re: 这个题目很重要 - 多模态 next token prediction

帖子 赖美豪中(my pronouns: ha/ha) »

自信一点对复杂得语义也不行
Caravel 写了: 2025年 1月 14日 16:07 之前看到lecun的报告说,

next token这种办法对图像效果不行

因为图像像素是连续变量,不像token是离散的
If printing money would end poverty, printing diplomas would end stupidity.
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 279
帖子: 13694
注册时间: 2022年 7月 26日 00:35

#5 Re: 这个题目很重要 - 多模态 next token prediction

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 14日 13:12 我还没看,先放在这。

我关注的是数据准备,数据统一,不同来源的数据如何处理以统一。

https://zhuanlan.zhihu.com/p/17728210584

https://arxiv.org/pdf/2412.18619

图片

图片
看了一下。是一个review,没有什么有启发的东西。

我主要关心tokenization,image或者video的tokenization,输入方面的。

它里面介绍的两种,无论discrete还是continuous tokenization,都没有看到我想要看到的东西:

viewtopic.php?p=4812354#p4812354
上次由 TheMatrix 在 2025年 1月 15日 14:40 修改。
原因: 未提供修改原因
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 693
帖子: 27371
注册时间: 2022年 7月 24日 17:21

#6 Re: 这个题目很重要 - 多模态 next token prediction

帖子 Caravel »

TheMatrix 写了: 2025年 1月 15日 14:17 看了一下。是一个review,没有什么有启发的东西。

我主要关心tokenization,image或者video的tokenization,输入方面的。

它里面介绍的两种,无论discrete还是continuous tokenization,都没有看到我想要看到的东西:

viewtopic.php?p=4812354#p4812354
目前这种用LLM方法搞出的多模态不行,要从机器人那里bottom up 世界模型
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 279
帖子: 13694
注册时间: 2022年 7月 26日 00:35

#7 Re: 这个题目很重要 - 多模态 next token prediction

帖子 TheMatrix楼主 »

TheMatrix 写了: 2025年 1月 15日 14:17 看了一下。是一个review,没有什么有启发的东西。

我主要关心tokenization,image或者video的tokenization,输入方面的。

它里面介绍的两种,无论discrete还是continuous tokenization,都没有看到我想要看到的东西:

viewtopic.php?p=4812354#p4812354

图片

图片

图片

图片
回复

回到 “STEM”