分页: 1 / 2

#1 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 14:35
xiaxia


#2 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 14:37
bj3
xiaxia 写了: 2025年 11月 4日 14:35

老中太坏了,非得把AI大泡泡捅破


#3 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 14:44
pertain99
xiaxia 写了: 2025年 11月 4日 14:35

Very good


#4 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 14:45
Tea

跟老中玩算法,地球上没人玩的过。


#5 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 14:49
somesome

美股市场:没看到,不相信,不承认。Chatgpt是最好的,英伟达是最牛的。


#6 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:01
未名空间


#7 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:01
buce

连续自回归语言模型


#8 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:04
llling369

所以tencent 的模型现在最好用?


#9 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:04
buce

CALM:通过「连续向量预测」提升语言模型效率

当前大语言模型逐个词元(token-by-token)生成的模式,由于每个词元的信息密度过低,导致了根本性的计算效率低下。为了突破这一瓶颈,腾讯的一篇文章提出了连续自回归语言模型(CALM)。该框架的核心是一个高保真度的自编码器(Autoencoder),它能将一个 K 个词元的文本块(chunk)无损地压缩成一个单一的连续向量。这使得语言建模的任务从预测下一个「词元」转变为预测下一个「向量」,从而将生成步骤减少了 K 倍。


#10 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:07
dealfinder10

吹牛逼不上税。这么牛逼为什么要发paper?


#11 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:07
buce

总结
贡献与启发
提出新范式:通过将语言建模从「下一词元预测」转变为「下一向量预测」,引入了「语义带宽」作为模型设计和优化的一个新维度,为突破自回归模型的效率瓶颈指明了方向。
构建完整工具箱:系统性地解决了范式转变带来的挑战,开发了一套自洽的无似然技术体系。
验证效率优势:实验结果表明,CALM 框架能够在显著降低计算成本(FLOPs)的同时,实现与强大基线模型相当的性能,证实了该技术路径的有效性和可扩展性。

局限与挑战

两阶段训练:模型训练分为自编码器和语言模型两个阶段,比端到端训练更为复杂,且最终性能受限于自编码器的质量。
上下文无关编码:当前的自编码器独立处理每个文本块,未能利用块与块之间的上下文信息,这可能限制了其表示能力。
算法生态适配:现有的诸多 LLM 技术(如基于策略优化的强化学习、知识蒸馏等)都依赖于对模型似然的访问。如何将这些技术适配到 CALM 的无似然框架中,是一个重要的开放问题。
缩放定律探索:模型性能与模型大小、数据量以及新变量 KKK 之间的关系,即新的缩放定律(Scaling Law),有待进一步探索。


#12 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:08
feng3

有点扯,准确和效率不可能兼得


#13 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:10
buce

QA

Q1:为什么 CALM 选择「离散反馈回路」作为 Transformer 输入,而非直接使用连续向量?这是否暴露了连续表示的表达局限?
论文指出:直接输入连续向量 zi−1z{i-1}z{i-1}​ 会导致性能下降。这可能揭示了一个深刻问题:Transformer 架构本质是为离散符号设计的。其位置编码、注意力机制、层归一化等都假设输入是嵌入空间中的「符号表示」,而非任意实数向量。连续向量 zzz 虽然包含信息,但其几何结构(如方向、模长)对 Transformer 来说是「语义模糊」的。而 token 嵌入则具有明确的词汇语义锚点。因此,CALM 实际上并未完全脱离离散世界,而是将连续预测作为「中间压缩层」,最终仍依赖离散 token 作为模型的「认知接口」。

Q2:能量损失(Energy Loss)是否足以保证生成分布的校准性?它能否避免模式坍塌或过度平滑?
能量损失与交叉熵损失的根本区别在于建模范式:交叉熵用于离散分类任务,依赖显式概率分布(如 softmax 输出),通过最大化真实词元的对数似然进行训练;而能量损失用于连续空间建模,不依赖概率密度,仅通过模型生成样本与真实样本之间的几何距离(如欧氏距离)来优化,包含保真度(靠近真实)和多样性(样本分散)两项。CALM 因预测的是连续向量而非离散词元,无法使用交叉熵,故采用能量损失实现无似然训练。能量分数理论上可平衡保真度和多样性,但:能量损失基于 L2 距离,这在高维空间中存在「距离集中」问题(所有点对距离趋近),导致梯度信号微弱。实验中(论文附录),蒙特卡洛估计方差大,可能不足以准确逼近期望。更关键的是,能量分数对分布形状不敏感。例如,一个尖锐的单峰分布与一个平坦的多峰分布可能有相似的能量分数,但生成行为截然不同。洞见:能量损失是一种「弱监督」目标,适合优化均值和方差,但难以控制高阶矩或尾部行为。CALM 的生成质量可能高度依赖自编码器提供的「干净」目标分布。

Q3:无似然温度采样的「批量近似算法」在实际部署中是否可行?其计算开销是否抵消了 K 倍加速?
批量近似算法需采样 N 个候选(如 N=1000)再重加权,这在推理时带来显著开销:虽然生成步骤减少 K 倍,但每步需运行 N 次生成头前向传播。若 N >> K,则总 FLOPs 反而增加,尤其在低温(高确定性)场景。论文报告推理 FLOPs 减少 37%,但未说明是否包含采样开销。很可能是在贪婪解码(N=1)下测得,而可控生成需更大 N。CALM 的效率优势主要体现在训练和贪婪推理,而在需要多样性控制的场景(如创意写作、对话),其优势可能消失。

Q4:AE 解码器的额外 softmax 是否抵消收益?
CALM 的推理效率账总体合算,但需细算。虽然每生成一个向量后需用 AE 解码器重建 K 个 token(含 softmax),带来额外计算,但因生成步数减少 K 倍,主干 Transformer 的 FLOPs 显著下降。由于 Transformer 计算远重于 AE 解码(尤其大模型中),净 FLOPs 仍明显降低(论文报告推理减少 37%)。不过,AE 解码增加了单步延迟和内存访问,在端到端延迟敏感场景可能削弱收益。因此,FLOPs 层面划算,实际部署需优化 AE 解码器以兑现全部效率红利。


#14 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:15
somesome
dealfinder10 写了: 2025年 11月 4日 15:07

吹牛逼不上税。这么牛逼为什么要发paper?

这是带着有色眼镜看问题了。
AI也好LLM也罢,这些东西,现在本来就还在实验室阶段,通过发paper,继续一步一步的走向成熟的过程。
结果美国这边过度炒作,把一个一期临床试验都没过的药直接就给全国范围大规模使用了。


#15 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:17
Caravel

这是扯淡,腾讯有本事训练一个top
model出来


#16 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:19
buce

过几天应该就有评测结果出来了吧


#17 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:23
mobster6
dealfinder10 写了: 2025年 11月 4日 15:07

吹牛逼不上税。这么牛逼为什么要发paper?

学雷锋🤣🤣


#18 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:36
DonnieTrump

论文投哪了?CVPR?


#19 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:36
sunfish

难怪今天美股崩了


#20 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

发表于 : 2025年 11月 4日 15:38
bam
sunfish 写了: 2025年 11月 4日 15:36

难怪今天美股崩了

八竿子打不着的事儿