感觉LLM马上要发生系统变革

Caravel · 帖子由 **Caravel楼主** » 2025年 10月 30日 16:07

越来越多公司在寻求突破目前的架构

tiantian2000 · 帖子由 **tiantian2000** » 2025年 10月 30日 16:10

这么大人力资金，突破是早晚的

Caravel · 帖子由 **Caravel楼主** » 2025年 10月 30日 16:28

tiantian2000 写了： 2025年 10月 30日 16:10
这么大人力资金，突破是早晚的

现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表

fantasist · 帖子由 **fantasist** » 2025年 10月 30日 19:54

Caravel 写了： 2025年 10月 30日 16:28
现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表

据说qwen也开始保守了，可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力，想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去，当然业内很多人执完全相反的观点。

Caravel · 帖子由 **Caravel楼主** » 2025年 10月 30日 19:57

fantasist 写了： 2025年 10月 30日 19:54
据说qwen也开始保守了，可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力，想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去，当然业内很多人执完全相反的观点。

中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi，GLM的基本架构都是V3

fantasist · 帖子由 **fantasist** » 2025年 10月 30日 20:02

Caravel 写了： 2025年 10月 30日 19:57
中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi，GLM的基本架构都是V3

最好用的qwen3一直坚持GQA，完全没用DS的架构。我问过他们，说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较，形势似乎没有明显改变。不过这样也好，有多样性说明还有更多的探索动力，都收敛到一种架构上就无趣了。

longtian · 帖子由 **longtian** » 2025年 10月 30日 22:50

小公司开源才能有fund呀，做个niche market，才能赚钱

不是要和大公司全面对标

fantasist 写了： 2025年 10月 30日 19:54
据说qwen也开始保守了，可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力，想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去，当然业内很多人执完全相反的观点。

Caravel · 帖子由 **Caravel楼主** » 2025年 10月 30日 23:11

fantasist 写了： 2025年 10月 30日 20:02
最好用的qwen3一直坚持GQA，完全没用DS的架构。我问过他们，说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较，形势似乎没有明显改变。不过这样也好，有多样性说明还有更多的探索动力，都收敛到一种架构上就无趣了。

“Qwen 3 的 MoE 结构与 DeepSeek 类似，也使用 256 个专家模块，但其激活策略略有不同”

网上看到的，deepseek是第一个使用如此多moe专家的开源模型。肯定是有所借鉴的。

Caravel · 帖子由 **Caravel楼主** » 2025年 10月 30日 23:19

longtian 写了： 2025年 10月 30日 22:50
小公司开源才能有fund呀，做个niche market，才能赚钱

不是要和大公司全面对标

开源打名声

赚钱应该是靠给公司做定制化

pnlmpnlm

最后得出个结论，什么模型架构没啥关系，只要有数据和算力就行。

magagop · 帖子由 **magagop** » 2025年 10月 31日 01:09

Caravel 写了： 2025年 10月 30日 16:07
越来越多公司在寻求突破目前的架构

論文不錯，有沒有FP4訓練的進展？感覺FP4算一個里程碑。

fantasist · 帖子由 **fantasist** » 2025年 10月 31日 01:44

magagop 写了： 2025年 10月 31日 01:09
論文不錯，有沒有FP4訓練的進展？感覺FP4算一個里程碑。

墙国的公司没GB200，估计短时间内不会有进展

magagop · 帖子由 **magagop** » 2025年 10月 31日 02:19

fantasist 写了： 2025年 10月 31日 01:44
墙国的公司没GB200，估计短时间内不会有进展

華為不是牛皮吹得很大嗎？FP4都沒有？

美华 · 帖子由美华 » 2025年 10月 31日 07:53

你只看到资金数字大，你看不到资金大部分都买了GPU。人大部分都在调参

tiantian2000 写了： 2025年 10月 30日 16:10
这么大人力资金，突破是早晚的

美华 · 帖子由美华 » 2025年 10月 31日 07:54

囼蛙网军看到个名词就到处用
不知道自己在说什么

magagop 写了： 2025年 10月 31日 02:19
華為不是牛皮吹得很大嗎？FP4都沒有？

fantasist · 帖子由 **fantasist** » 2025年 10月 31日 12:12

magagop 写了： 2025年 10月 31日 02:19
華為不是牛皮吹得很大嗎？FP4都沒有？

实事求是地说，以后肯定会有，不过最近热炒UE8M0之类的名词，训练精度应该还在FP8。

magagop · 帖子由 **magagop** » 2025年 10月 31日 12:49

美华写了： 2025年 10月 31日 07:54
囼蛙网军看到个名词就到处用
不知道自己在说什么

傻逼粉紅滾一邊去

美华 · 帖子由美华 » 2025年 10月 31日 13:15

囼蛙破防了

magagop 写了： 2025年 10月 31日 12:49
傻逼粉紅滾一邊去

magagop · 帖子由 **magagop** » 2025年 10月 31日 14:39

美华写了： 2025年 10月 31日 13:15
囼蛙破防了

傻逼五毛只會拉屎挑釁，實際是草包一個。

justChat · 帖子由 **justChat** » 2025年 10月 31日 15:26

买gpu的rounding error，也足够吸引世界上最聪明的人群了。
我觉得问题恰好在这里。花几百亿买来的gpu，必然招人研究怎么运行，所以这些最聪明的人都在搞如何用几万、几十万gpu来训练。但谁也不知道这条路能不能产生商业价值（且不说agi，因为那东西没有公认定义）。
从gpt 3.5到5来看，希望渺茫。

美华写了： 2025年 10月 31日 07:53
你只看到资金数字大，你看不到资金大部分都买了GPU。人大部分都在调参

新未名空间

感觉LLM马上要发生系统变革

#1 感觉LLM马上要发生系统变革

#2 Re: 感觉LLM马上要发生系统变革

#3 Re: 感觉LLM马上要发生系统变革

#4 Re: 感觉LLM马上要发生系统变革

#5 Re: 感觉LLM马上要发生系统变革

#6 Re: 感觉LLM马上要发生系统变革

#7 Re: 感觉LLM马上要发生系统变革

#8 Re: 感觉LLM马上要发生系统变革

#9 Re: 感觉LLM马上要发生系统变革

#10 Re: 感觉LLM马上要发生系统变革

#11 Re: 感觉LLM马上要发生系统变革

#12 Re: 感觉LLM马上要发生系统变革

#13 Re: 感觉LLM马上要发生系统变革

#14 Re: 感觉LLM马上要发生系统变革

#15 Re: 感觉LLM马上要发生系统变革

#16 Re: 感觉LLM马上要发生系统变革

#17 Re: 感觉LLM马上要发生系统变革

#18 Re: 感觉LLM马上要发生系统变革

#19 Re: 感觉LLM马上要发生系统变革

#20 Re: 感觉LLM马上要发生系统变革