完了,一片paper宣判了现在所有AI LLM模型的死亡
版主: Softfist
#9 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡
CALM:通过「连续向量预测」提升语言模型效率
当前大语言模型逐个词元(token-by-token)生成的模式,由于每个词元的信息密度过低,导致了根本性的计算效率低下。为了突破这一瓶颈,腾讯的一篇文章提出了连续自回归语言模型(CALM)。该框架的核心是一个高保真度的自编码器(Autoencoder),它能将一个 K 个词元的文本块(chunk)无损地压缩成一个单一的连续向量。这使得语言建模的任务从预测下一个「词元」转变为预测下一个「向量」,从而将生成步骤减少了 K 倍。
-
dealfinder10
- 论坛精英

- 帖子互动: 939
- 帖子: 7871
- 注册时间: 2023年 10月 6日 14:56
#11 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡
总结
贡献与启发
提出新范式:通过将语言建模从「下一词元预测」转变为「下一向量预测」,引入了「语义带宽」作为模型设计和优化的一个新维度,为突破自回归模型的效率瓶颈指明了方向。
构建完整工具箱:系统性地解决了范式转变带来的挑战,开发了一套自洽的无似然技术体系。
验证效率优势:实验结果表明,CALM 框架能够在显著降低计算成本(FLOPs)的同时,实现与强大基线模型相当的性能,证实了该技术路径的有效性和可扩展性。
局限与挑战
两阶段训练:模型训练分为自编码器和语言模型两个阶段,比端到端训练更为复杂,且最终性能受限于自编码器的质量。
上下文无关编码:当前的自编码器独立处理每个文本块,未能利用块与块之间的上下文信息,这可能限制了其表示能力。
算法生态适配:现有的诸多 LLM 技术(如基于策略优化的强化学习、知识蒸馏等)都依赖于对模型似然的访问。如何将这些技术适配到 CALM 的无似然框架中,是一个重要的开放问题。
缩放定律探索:模型性能与模型大小、数据量以及新变量 KKK 之间的关系,即新的缩放定律(Scaling Law),有待进一步探索。
#13 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡
QA
Q1:为什么 CALM 选择「离散反馈回路」作为 Transformer 输入,而非直接使用连续向量?这是否暴露了连续表示的表达局限?
论文指出:直接输入连续向量 zi−1z{i-1}z{i-1} 会导致性能下降。这可能揭示了一个深刻问题:Transformer 架构本质是为离散符号设计的。其位置编码、注意力机制、层归一化等都假设输入是嵌入空间中的「符号表示」,而非任意实数向量。连续向量 zzz 虽然包含信息,但其几何结构(如方向、模长)对 Transformer 来说是「语义模糊」的。而 token 嵌入则具有明确的词汇语义锚点。因此,CALM 实际上并未完全脱离离散世界,而是将连续预测作为「中间压缩层」,最终仍依赖离散 token 作为模型的「认知接口」。
Q2:能量损失(Energy Loss)是否足以保证生成分布的校准性?它能否避免模式坍塌或过度平滑?
能量损失与交叉熵损失的根本区别在于建模范式:交叉熵用于离散分类任务,依赖显式概率分布(如 softmax 输出),通过最大化真实词元的对数似然进行训练;而能量损失用于连续空间建模,不依赖概率密度,仅通过模型生成样本与真实样本之间的几何距离(如欧氏距离)来优化,包含保真度(靠近真实)和多样性(样本分散)两项。CALM 因预测的是连续向量而非离散词元,无法使用交叉熵,故采用能量损失实现无似然训练。能量分数理论上可平衡保真度和多样性,但:能量损失基于 L2 距离,这在高维空间中存在「距离集中」问题(所有点对距离趋近),导致梯度信号微弱。实验中(论文附录),蒙特卡洛估计方差大,可能不足以准确逼近期望。更关键的是,能量分数对分布形状不敏感。例如,一个尖锐的单峰分布与一个平坦的多峰分布可能有相似的能量分数,但生成行为截然不同。洞见:能量损失是一种「弱监督」目标,适合优化均值和方差,但难以控制高阶矩或尾部行为。CALM 的生成质量可能高度依赖自编码器提供的「干净」目标分布。
Q3:无似然温度采样的「批量近似算法」在实际部署中是否可行?其计算开销是否抵消了 K 倍加速?
批量近似算法需采样 N 个候选(如 N=1000)再重加权,这在推理时带来显著开销:虽然生成步骤减少 K 倍,但每步需运行 N 次生成头前向传播。若 N >> K,则总 FLOPs 反而增加,尤其在低温(高确定性)场景。论文报告推理 FLOPs 减少 37%,但未说明是否包含采样开销。很可能是在贪婪解码(N=1)下测得,而可控生成需更大 N。CALM 的效率优势主要体现在训练和贪婪推理,而在需要多样性控制的场景(如创意写作、对话),其优势可能消失。
Q4:AE 解码器的额外 softmax 是否抵消收益?
CALM 的推理效率账总体合算,但需细算。虽然每生成一个向量后需用 AE 解码器重建 K 个 token(含 softmax),带来额外计算,但因生成步数减少 K 倍,主干 Transformer 的 FLOPs 显著下降。由于 Transformer 计算远重于 AE 解码(尤其大模型中),净 FLOPs 仍明显降低(论文报告推理减少 37%)。不过,AE 解码增加了单步延迟和内存访问,在端到端延迟敏感场景可能削弱收益。因此,FLOPs 层面划算,实际部署需优化 AE 解码器以兑现全部效率红利。
#14 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡
这是带着有色眼镜看问题了。
AI也好LLM也罢,这些东西,现在本来就还在实验室阶段,通过发paper,继续一步一步的走向成熟的过程。
结果美国这边过度炒作,把一个一期临床试验都没过的药直接就给全国范围大规模使用了。
-
Caravel
- 论坛元老

Caravel 的博客 - 帖子互动: 709
- 帖子: 27872
- 注册时间: 2022年 7月 24日 17:21
-
DonnieTrump(唐闯璞)
- 论坛支柱

- 帖子互动: 527
- 帖子: 10403
- 注册时间: 2024年 7月 1日 08:51




