感觉LLM马上要发生系统变革

版主: hci

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27795
注册时间: 2022年 7月 24日 17:21

#1 感觉LLM马上要发生系统变革

帖子 Caravel楼主 »

越来越多公司在寻求突破目前的架构


+1.00 积分 [版主 hci 发放的奖励]
tiantian2000
著名点评
著名点评
帖子互动: 453
帖子: 4600
注册时间: 2023年 6月 21日 19:55

#2 Re: 感觉LLM马上要发生系统变革

帖子 tiantian2000 »

这么大人力资金,突破是早晚的

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27795
注册时间: 2022年 7月 24日 17:21

#3 Re: 感觉LLM马上要发生系统变革

帖子 Caravel楼主 »

tiantian2000 写了: 2025年 10月 30日 16:10

这么大人力资金,突破是早晚的

现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表

fantasist
见习点评
见习点评
帖子互动: 263
帖子: 1856
注册时间: 2022年 7月 24日 19:52

#4 Re: 感觉LLM马上要发生系统变革

帖子 fantasist »

Caravel 写了: 2025年 10月 30日 16:28

现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27795
注册时间: 2022年 7月 24日 17:21

#5 Re: 感觉LLM马上要发生系统变革

帖子 Caravel楼主 »

fantasist 写了: 2025年 10月 30日 19:54

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。

中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi,GLM的基本架构都是V3

fantasist
见习点评
见习点评
帖子互动: 263
帖子: 1856
注册时间: 2022年 7月 24日 19:52

#6 Re: 感觉LLM马上要发生系统变革

帖子 fantasist »

Caravel 写了: 2025年 10月 30日 19:57

中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi,GLM的基本架构都是V3

最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。

longtian
见习点评
见习点评
帖子互动: 112
帖子: 1428
注册时间: 2023年 5月 12日 16:15

#7 Re: 感觉LLM马上要发生系统变革

帖子 longtian »

小公司开源才能有fund呀,做个niche market,才能赚钱

不是要和大公司全面对标

fantasist 写了: 2025年 10月 30日 19:54

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27795
注册时间: 2022年 7月 24日 17:21

#8 Re: 感觉LLM马上要发生系统变革

帖子 Caravel楼主 »

fantasist 写了: 2025年 10月 30日 20:02

最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。

“Qwen 3 的 MoE 结构与 DeepSeek 类似,也使用 256 个专家模块,但其激活策略略有不同”

网上看到的,deepseek是第一个使用如此多moe专家的开源模型。肯定是有所借鉴的。

Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27795
注册时间: 2022年 7月 24日 17:21

#9 Re: 感觉LLM马上要发生系统变革

帖子 Caravel楼主 »

longtian 写了: 2025年 10月 30日 22:50

小公司开源才能有fund呀,做个niche market,才能赚钱

不是要和大公司全面对标

开源打名声

赚钱应该是靠给公司做定制化

pnlmpnlm(pnlm)
职业作家
职业作家
帖子互动: 89
帖子: 504
注册时间: 2025年 2月 12日 03:13

#10 Re: 感觉LLM马上要发生系统变革

帖子 pnlmpnlm(pnlm) »

最后得出个结论,什么模型架构没啥关系,只要有数据和算力就行。 :mrgreen: :mrgreen: :mrgreen:

magagop
著名点评
著名点评
帖子互动: 247
帖子: 3566
注册时间: 2024年 12月 5日 17:35

#11 Re: 感觉LLM马上要发生系统变革

帖子 magagop »

Caravel 写了: 2025年 10月 30日 16:07

越来越多公司在寻求突破目前的架构

論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。

fantasist
见习点评
见习点评
帖子互动: 263
帖子: 1856
注册时间: 2022年 7月 24日 19:52

#12 Re: 感觉LLM马上要发生系统变革

帖子 fantasist »

magagop 写了: 2025年 10月 31日 01:09

論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。

墙国的公司没GB200,估计短时间内不会有进展

magagop
著名点评
著名点评
帖子互动: 247
帖子: 3566
注册时间: 2024年 12月 5日 17:35

#13 Re: 感觉LLM马上要发生系统变革

帖子 magagop »

fantasist 写了: 2025年 10月 31日 01:44

墙国的公司没GB200,估计短时间内不会有进展

華為不是牛皮吹得很大嗎?FP4都沒有?

美华
小有名气
小有名气
帖子互动: 3
帖子: 32
注册时间: 2025年 10月 29日 02:32

#14 Re: 感觉LLM马上要发生系统变革

帖子 美华 »

你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参

tiantian2000 写了: 2025年 10月 30日 16:10

这么大人力资金,突破是早晚的

美华
小有名气
小有名气
帖子互动: 3
帖子: 32
注册时间: 2025年 10月 29日 02:32

#15 Re: 感觉LLM马上要发生系统变革

帖子 美华 »

囼蛙网军看到个名词就到处用
不知道自己在说什么

magagop 写了: 2025年 10月 31日 02:19

華為不是牛皮吹得很大嗎?FP4都沒有?

fantasist
见习点评
见习点评
帖子互动: 263
帖子: 1856
注册时间: 2022年 7月 24日 19:52

#16 Re: 感觉LLM马上要发生系统变革

帖子 fantasist »

magagop 写了: 2025年 10月 31日 02:19

華為不是牛皮吹得很大嗎?FP4都沒有?

实事求是地说,以后肯定会有,不过最近热炒UE8M0之类的名词,训练精度应该还在FP8。

上次由 fantasist 在 2025年 10月 31日 12:50 修改。
magagop
著名点评
著名点评
帖子互动: 247
帖子: 3566
注册时间: 2024年 12月 5日 17:35

#17 Re: 感觉LLM马上要发生系统变革

帖子 magagop »

美华 写了: 2025年 10月 31日 07:54

囼蛙网军看到个名词就到处用
不知道自己在说什么

傻逼粉紅滾一邊去

美华
小有名气
小有名气
帖子互动: 3
帖子: 32
注册时间: 2025年 10月 29日 02:32

#18 Re: 感觉LLM马上要发生系统变革

帖子 美华 »

囼蛙破防了

magagop 写了: 2025年 10月 31日 12:49

傻逼粉紅滾一邊去

magagop
著名点评
著名点评
帖子互动: 247
帖子: 3566
注册时间: 2024年 12月 5日 17:35

#19 Re: 感觉LLM马上要发生系统变革

帖子 magagop »

美华 写了: 2025年 10月 31日 13:15

囼蛙破防了

傻逼五毛只會拉屎挑釁,實際是草包一個。

justChat
知名作家
知名作家
帖子互动: 142
帖子: 913
注册时间: 2023年 10月 19日 16:33

#20 Re: 感觉LLM马上要发生系统变革

帖子 justChat »

买gpu的rounding error,也足够吸引世界上最聪明的人群了。
我觉得问题恰好在这里。花几百亿买来的gpu,必然招人研究怎么运行,所以这些最聪明的人都在搞如何用几万、几十万gpu来训练。但谁也不知道这条路能不能产生商业价值(且不说agi,因为那东西没有公认定义)。
从gpt 3.5到5来看,希望渺茫。

美华 写了: 2025年 10月 31日 07:53

你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参

回复

回到 “葵花宝典(Programming)”