越来越多公司在寻求突破目前的架构
感觉LLM马上要发生系统变革
版主: hci
-
Caravel楼主
- 论坛元老

Caravel 的博客 - 帖子互动: 707
- 帖子: 27795
- 注册时间: 2022年 7月 24日 17:21
-
tiantian2000
- 著名点评

- 帖子互动: 453
- 帖子: 4600
- 注册时间: 2023年 6月 21日 19:55
-
Caravel楼主
- 论坛元老

Caravel 的博客 - 帖子互动: 707
- 帖子: 27795
- 注册时间: 2022年 7月 24日 17:21
-
Caravel楼主
- 论坛元老

Caravel 的博客 - 帖子互动: 707
- 帖子: 27795
- 注册时间: 2022年 7月 24日 17:21
#5 Re: 感觉LLM马上要发生系统变革
fantasist 写了: 2025年 10月 30日 19:54据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。
中国今年AI公司大突破都得益于deepseek
去年很多公司都打退堂鼓了
kimi,GLM的基本架构都是V3
-
Caravel楼主
- 论坛元老

Caravel 的博客 - 帖子互动: 707
- 帖子: 27795
- 注册时间: 2022年 7月 24日 17:21
#8 Re: 感觉LLM马上要发生系统变革
fantasist 写了: 2025年 10月 30日 20:02最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。
“Qwen 3 的 MoE 结构与 DeepSeek 类似,也使用 256 个专家模块,但其激活策略略有不同”
网上看到的,deepseek是第一个使用如此多moe专家的开源模型。肯定是有所借鉴的。
-
Caravel楼主
- 论坛元老

Caravel 的博客 - 帖子互动: 707
- 帖子: 27795
- 注册时间: 2022年 7月 24日 17:21
#20 Re: 感觉LLM马上要发生系统变革
买gpu的rounding error,也足够吸引世界上最聪明的人群了。
我觉得问题恰好在这里。花几百亿买来的gpu,必然招人研究怎么运行,所以这些最聪明的人都在搞如何用几万、几十万gpu来训练。但谁也不知道这条路能不能产生商业价值(且不说agi,因为那东西没有公认定义)。
从gpt 3.5到5来看,希望渺茫。



