完了,一片paper宣判了现在所有AI LLM模型的死亡

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

xiaxia楼主
著名点评
著名点评
帖子互动: 227
帖子: 4997
注册时间: 2022年 9月 6日 20:57

#1 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 xiaxia楼主 »

x1 图片
头像
bj3(bj)
论坛点评
论坛点评
帖子互动: 131
帖子: 2825
注册时间: 2022年 8月 28日 19:54

#2 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 bj3(bj) »

xiaxia 写了: 2025年 11月 4日 14:35

老中太坏了,非得把AI大泡泡捅破

pertain99
著名写手
著名写手
帖子互动: 40
帖子: 226
注册时间: 2024年 12月 11日 21:59

#3 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 pertain99 »

xiaxia 写了: 2025年 11月 4日 14:35

Very good

Tea
论坛精英
论坛精英
帖子互动: 438
帖子: 7727
注册时间: 2022年 8月 22日 22:41

#4 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 Tea »

跟老中玩算法,地球上没人玩的过。

somesome(dingding)
论坛精英
论坛精英
帖子互动: 845
帖子: 5496
注册时间: 2022年 10月 10日 15:50

#5 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 somesome(dingding) »

美股市场:没看到,不相信,不承认。Chatgpt是最好的,英伟达是最牛的。

x1 图片
未名空间
论坛点评
论坛点评
帖子互动: 156
帖子: 2690
注册时间: 2022年 7月 28日 22:51

#6 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 未名空间 »

buce
论坛精英
论坛精英
帖子互动: 283
帖子: 8276
注册时间: 2022年 7月 23日 21:52

#7 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 buce »

连续自回归语言模型

llling369
论坛点评
论坛点评
帖子互动: 59
帖子: 2309
注册时间: 2022年 7月 22日 10:01

#8 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 llling369 »

所以tencent 的模型现在最好用?

buce
论坛精英
论坛精英
帖子互动: 283
帖子: 8276
注册时间: 2022年 7月 23日 21:52

#9 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 buce »

CALM:通过「连续向量预测」提升语言模型效率

当前大语言模型逐个词元(token-by-token)生成的模式,由于每个词元的信息密度过低,导致了根本性的计算效率低下。为了突破这一瓶颈,腾讯的一篇文章提出了连续自回归语言模型(CALM)。该框架的核心是一个高保真度的自编码器(Autoencoder),它能将一个 K 个词元的文本块(chunk)无损地压缩成一个单一的连续向量。这使得语言建模的任务从预测下一个「词元」转变为预测下一个「向量」,从而将生成步骤减少了 K 倍。

dealfinder10
论坛精英
论坛精英
帖子互动: 936
帖子: 7864
注册时间: 2023年 10月 6日 14:56

#10 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 dealfinder10 »

吹牛逼不上税。这么牛逼为什么要发paper?

x1 图片
buce
论坛精英
论坛精英
帖子互动: 283
帖子: 8276
注册时间: 2022年 7月 23日 21:52

#11 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 buce »

总结
贡献与启发
提出新范式:通过将语言建模从「下一词元预测」转变为「下一向量预测」,引入了「语义带宽」作为模型设计和优化的一个新维度,为突破自回归模型的效率瓶颈指明了方向。
构建完整工具箱:系统性地解决了范式转变带来的挑战,开发了一套自洽的无似然技术体系。
验证效率优势:实验结果表明,CALM 框架能够在显著降低计算成本(FLOPs)的同时,实现与强大基线模型相当的性能,证实了该技术路径的有效性和可扩展性。

局限与挑战

两阶段训练:模型训练分为自编码器和语言模型两个阶段,比端到端训练更为复杂,且最终性能受限于自编码器的质量。
上下文无关编码:当前的自编码器独立处理每个文本块,未能利用块与块之间的上下文信息,这可能限制了其表示能力。
算法生态适配:现有的诸多 LLM 技术(如基于策略优化的强化学习、知识蒸馏等)都依赖于对模型似然的访问。如何将这些技术适配到 CALM 的无似然框架中,是一个重要的开放问题。
缩放定律探索:模型性能与模型大小、数据量以及新变量 KKK 之间的关系,即新的缩放定律(Scaling Law),有待进一步探索。

feng3
著名点评
著名点评
帖子互动: 270
帖子: 3694
注册时间: 2024年 1月 3日 16:05

#12 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 feng3 »

有点扯,准确和效率不可能兼得

buce
论坛精英
论坛精英
帖子互动: 283
帖子: 8276
注册时间: 2022年 7月 23日 21:52

#13 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 buce »

QA

Q1:为什么 CALM 选择「离散反馈回路」作为 Transformer 输入,而非直接使用连续向量?这是否暴露了连续表示的表达局限?
论文指出:直接输入连续向量 zi−1z{i-1}z{i-1}​ 会导致性能下降。这可能揭示了一个深刻问题:Transformer 架构本质是为离散符号设计的。其位置编码、注意力机制、层归一化等都假设输入是嵌入空间中的「符号表示」,而非任意实数向量。连续向量 zzz 虽然包含信息,但其几何结构(如方向、模长)对 Transformer 来说是「语义模糊」的。而 token 嵌入则具有明确的词汇语义锚点。因此,CALM 实际上并未完全脱离离散世界,而是将连续预测作为「中间压缩层」,最终仍依赖离散 token 作为模型的「认知接口」。

Q2:能量损失(Energy Loss)是否足以保证生成分布的校准性?它能否避免模式坍塌或过度平滑?
能量损失与交叉熵损失的根本区别在于建模范式:交叉熵用于离散分类任务,依赖显式概率分布(如 softmax 输出),通过最大化真实词元的对数似然进行训练;而能量损失用于连续空间建模,不依赖概率密度,仅通过模型生成样本与真实样本之间的几何距离(如欧氏距离)来优化,包含保真度(靠近真实)和多样性(样本分散)两项。CALM 因预测的是连续向量而非离散词元,无法使用交叉熵,故采用能量损失实现无似然训练。能量分数理论上可平衡保真度和多样性,但:能量损失基于 L2 距离,这在高维空间中存在「距离集中」问题(所有点对距离趋近),导致梯度信号微弱。实验中(论文附录),蒙特卡洛估计方差大,可能不足以准确逼近期望。更关键的是,能量分数对分布形状不敏感。例如,一个尖锐的单峰分布与一个平坦的多峰分布可能有相似的能量分数,但生成行为截然不同。洞见:能量损失是一种「弱监督」目标,适合优化均值和方差,但难以控制高阶矩或尾部行为。CALM 的生成质量可能高度依赖自编码器提供的「干净」目标分布。

Q3:无似然温度采样的「批量近似算法」在实际部署中是否可行?其计算开销是否抵消了 K 倍加速?
批量近似算法需采样 N 个候选(如 N=1000)再重加权,这在推理时带来显著开销:虽然生成步骤减少 K 倍,但每步需运行 N 次生成头前向传播。若 N >> K,则总 FLOPs 反而增加,尤其在低温(高确定性)场景。论文报告推理 FLOPs 减少 37%,但未说明是否包含采样开销。很可能是在贪婪解码(N=1)下测得,而可控生成需更大 N。CALM 的效率优势主要体现在训练和贪婪推理,而在需要多样性控制的场景(如创意写作、对话),其优势可能消失。

Q4:AE 解码器的额外 softmax 是否抵消收益?
CALM 的推理效率账总体合算,但需细算。虽然每生成一个向量后需用 AE 解码器重建 K 个 token(含 softmax),带来额外计算,但因生成步数减少 K 倍,主干 Transformer 的 FLOPs 显著下降。由于 Transformer 计算远重于 AE 解码(尤其大模型中),净 FLOPs 仍明显降低(论文报告推理减少 37%)。不过,AE 解码增加了单步延迟和内存访问,在端到端延迟敏感场景可能削弱收益。因此,FLOPs 层面划算,实际部署需优化 AE 解码器以兑现全部效率红利。

somesome(dingding)
论坛精英
论坛精英
帖子互动: 845
帖子: 5496
注册时间: 2022年 10月 10日 15:50

#14 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 somesome(dingding) »

dealfinder10 写了: 2025年 11月 4日 15:07

吹牛逼不上税。这么牛逼为什么要发paper?

这是带着有色眼镜看问题了。
AI也好LLM也罢,这些东西,现在本来就还在实验室阶段,通过发paper,继续一步一步的走向成熟的过程。
结果美国这边过度炒作,把一个一期临床试验都没过的药直接就给全国范围大规模使用了。

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 709
帖子: 27863
注册时间: 2022年 7月 24日 17:21

#15 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 Caravel »

这是扯淡,腾讯有本事训练一个top
model出来

buce
论坛精英
论坛精英
帖子互动: 283
帖子: 8276
注册时间: 2022年 7月 23日 21:52

#16 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 buce »

过几天应该就有评测结果出来了吧

mobster6
见习点评
见习点评
帖子互动: 189
帖子: 1543
注册时间: 2024年 6月 27日 23:19

#17 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 mobster6 »

dealfinder10 写了: 2025年 11月 4日 15:07

吹牛逼不上税。这么牛逼为什么要发paper?

学雷锋🤣🤣

头像
DonnieTrump(唐闯璞)
论坛支柱
论坛支柱
帖子互动: 527
帖子: 10400
注册时间: 2024年 7月 1日 08:51

#18 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 DonnieTrump(唐闯璞) »

论文投哪了?CVPR?

--
图片

sunfish
论坛精英
论坛精英
帖子互动: 244
帖子: 6171
注册时间: 2022年 8月 18日 13:14

#19 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 sunfish »

难怪今天美股崩了

bam
论坛元老
论坛元老
帖子互动: 1274
帖子: 32620
注册时间: 2022年 7月 23日 20:43

#20 Re: 完了,一片paper宣判了现在所有AI LLM模型的死亡

帖子 bam »

sunfish 写了: 2025年 11月 4日 15:36

难怪今天美股崩了

八竿子打不着的事儿

回复

回到 “军事天地(Military)”