新未名空间

xiaxia 写了： 2025年 11月 4日 14:35

老中太坏了，非得把AI大泡泡捅破

xiaxia 写了： 2025年 11月 4日 14:35

Very good

跟老中玩算法，地球上没人玩的过。

美股市场：没看到，不相信，不承认。Chatgpt是最好的，英伟达是最牛的。

连续自回归语言模型

所以tencent 的模型现在最好用？

CALM：通过「连续向量预测」提升语言模型效率

当前大语言模型逐个词元（token-by-token）生成的模式，由于每个词元的信息密度过低，导致了根本性的计算效率低下。为了突破这一瓶颈，腾讯的一篇文章提出了连续自回归语言模型（CALM）。该框架的核心是一个高保真度的自编码器（Autoencoder），它能将一个 K 个词元的文本块（chunk）无损地压缩成一个单一的连续向量。这使得语言建模的任务从预测下一个「词元」转变为预测下一个「向量」，从而将生成步骤减少了 K 倍。

吹牛逼不上税。这么牛逼为什么要发paper？

总结
贡献与启发
提出新范式：通过将语言建模从「下一词元预测」转变为「下一向量预测」，引入了「语义带宽」作为模型设计和优化的一个新维度，为突破自回归模型的效率瓶颈指明了方向。
构建完整工具箱：系统性地解决了范式转变带来的挑战，开发了一套自洽的无似然技术体系。
验证效率优势：实验结果表明，CALM 框架能够在显著降低计算成本（FLOPs）的同时，实现与强大基线模型相当的性能，证实了该技术路径的有效性和可扩展性。

局限与挑战

两阶段训练：模型训练分为自编码器和语言模型两个阶段，比端到端训练更为复杂，且最终性能受限于自编码器的质量。
上下文无关编码：当前的自编码器独立处理每个文本块，未能利用块与块之间的上下文信息，这可能限制了其表示能力。
算法生态适配：现有的诸多 LLM 技术（如基于策略优化的强化学习、知识蒸馏等）都依赖于对模型似然的访问。如何将这些技术适配到 CALM 的无似然框架中，是一个重要的开放问题。
缩放定律探索：模型性能与模型大小、数据量以及新变量 KKK 之间的关系，即新的缩放定律（Scaling Law），有待进一步探索。

有点扯，准确和效率不可能兼得

QA

Q1：为什么 CALM 选择「离散反馈回路」作为 Transformer 输入，而非直接使用连续向量？这是否暴露了连续表示的表达局限？
论文指出：直接输入连续向量 zi−1z{i-1}z{i-1} 会导致性能下降。这可能揭示了一个深刻问题：Transformer 架构本质是为离散符号设计的。其位置编码、注意力机制、层归一化等都假设输入是嵌入空间中的「符号表示」，而非任意实数向量。连续向量 zzz 虽然包含信息，但其几何结构（如方向、模长）对 Transformer 来说是「语义模糊」的。而 token 嵌入则具有明确的词汇语义锚点。因此，CALM 实际上并未完全脱离离散世界，而是将连续预测作为「中间压缩层」，最终仍依赖离散 token 作为模型的「认知接口」。

Q2：能量损失（Energy Loss）是否足以保证生成分布的校准性？它能否避免模式坍塌或过度平滑？
能量损失与交叉熵损失的根本区别在于建模范式：交叉熵用于离散分类任务，依赖显式概率分布（如 softmax 输出），通过最大化真实词元的对数似然进行训练；而能量损失用于连续空间建模，不依赖概率密度，仅通过模型生成样本与真实样本之间的几何距离（如欧氏距离）来优化，包含保真度（靠近真实）和多样性（样本分散）两项。CALM 因预测的是连续向量而非离散词元，无法使用交叉熵，故采用能量损失实现无似然训练。能量分数理论上可平衡保真度和多样性，但：能量损失基于 L2 距离，这在高维空间中存在「距离集中」问题（所有点对距离趋近），导致梯度信号微弱。实验中（论文附录），蒙特卡洛估计方差大，可能不足以准确逼近期望。更关键的是，能量分数对分布形状不敏感。例如，一个尖锐的单峰分布与一个平坦的多峰分布可能有相似的能量分数，但生成行为截然不同。洞见：能量损失是一种「弱监督」目标，适合优化均值和方差，但难以控制高阶矩或尾部行为。CALM 的生成质量可能高度依赖自编码器提供的「干净」目标分布。

Q3：无似然温度采样的「批量近似算法」在实际部署中是否可行？其计算开销是否抵消了 K 倍加速？
批量近似算法需采样 N 个候选（如 N=1000）再重加权，这在推理时带来显著开销：虽然生成步骤减少 K 倍，但每步需运行 N 次生成头前向传播。若 N >> K，则总 FLOPs 反而增加，尤其在低温（高确定性）场景。论文报告推理 FLOPs 减少 37%，但未说明是否包含采样开销。很可能是在贪婪解码（N=1）下测得，而可控生成需更大 N。CALM 的效率优势主要体现在训练和贪婪推理，而在需要多样性控制的场景（如创意写作、对话），其优势可能消失。

Q4：AE 解码器的额外 softmax 是否抵消收益？
CALM 的推理效率账总体合算，但需细算。虽然每生成一个向量后需用 AE 解码器重建 K 个 token（含 softmax），带来额外计算，但因生成步数减少 K 倍，主干 Transformer 的 FLOPs 显著下降。由于 Transformer 计算远重于 AE 解码（尤其大模型中），净 FLOPs 仍明显降低（论文报告推理减少 37%）。不过，AE 解码增加了单步延迟和内存访问，在端到端延迟敏感场景可能削弱收益。因此，FLOPs 层面划算，实际部署需优化 AE 解码器以兑现全部效率红利。

dealfinder10 写了： 2025年 11月 4日 15:07
吹牛逼不上税。这么牛逼为什么要发paper？

这是带着有色眼镜看问题了。
AI也好LLM也罢，这些东西，现在本来就还在实验室阶段，通过发paper，继续一步一步的走向成熟的过程。
结果美国这边过度炒作，把一个一期临床试验都没过的药直接就给全国范围大规模使用了。

这是扯淡，腾讯有本事训练一个top
model出来

过几天应该就有评测结果出来了吧

dealfinder10 写了： 2025年 11月 4日 15:07
吹牛逼不上税。这么牛逼为什么要发paper？

学雷锋

论文投哪了？CVPR？

难怪今天美股崩了

sunfish 写了： 2025年 11月 4日 15:36
难怪今天美股崩了

八竿子打不着的事儿

新未名空间

完了，一片paper宣判了现在所有AI LLM模型的死亡

#1 完了，一片paper宣判了现在所有AI LLM模型的死亡

#2 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#3 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#4 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#5 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#6 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#7 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#8 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#9 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#10 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#11 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#12 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#13 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#14 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#15 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#16 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#17 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#18 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#19 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡

#20 Re: 完了，一片paper宣判了现在所有AI LLM模型的死亡