分页: 1 / 2

#1 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 16:07
Caravel

越来越多公司在寻求突破目前的架构


#2 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 16:10
tiantian2000

这么大人力资金,突破是早晚的


#3 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 16:28
Caravel
tiantian2000 写了: 2025年 10月 30日 16:10

这么大人力资金,突破是早晚的

现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表


#4 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 19:54
fantasist
Caravel 写了: 2025年 10月 30日 16:28

现在都是中国公司在开源成果

我想信御三家也有不少成果

但是都不发表

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。


#5 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 19:57
Caravel
fantasist 写了: 2025年 10月 30日 19:54

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。

中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi,GLM的基本架构都是V3


#6 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 20:02
fantasist
Caravel 写了: 2025年 10月 30日 19:57

中国今年AI公司大突破都得益于deepseek

去年很多公司都打退堂鼓了

kimi,GLM的基本架构都是V3

最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。


#7 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 22:50
longtian

小公司开源才能有fund呀,做个niche market,才能赚钱

不是要和大公司全面对标

fantasist 写了: 2025年 10月 30日 19:54

据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。


#8 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 23:11
Caravel
fantasist 写了: 2025年 10月 30日 20:02

最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。

“Qwen 3 的 MoE 结构与 DeepSeek 类似,也使用 256 个专家模块,但其激活策略略有不同”

网上看到的,deepseek是第一个使用如此多moe专家的开源模型。肯定是有所借鉴的。


#9 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 23:19
Caravel
longtian 写了: 2025年 10月 30日 22:50

小公司开源才能有fund呀,做个niche market,才能赚钱

不是要和大公司全面对标

开源打名声

赚钱应该是靠给公司做定制化


#10 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 30日 23:33
pnlmpnlm

最后得出个结论,什么模型架构没啥关系,只要有数据和算力就行。 :mrgreen: :mrgreen: :mrgreen:


#11 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 01:09
magagop
Caravel 写了: 2025年 10月 30日 16:07

越来越多公司在寻求突破目前的架构

論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。


#12 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 01:44
fantasist
magagop 写了: 2025年 10月 31日 01:09

論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。

墙国的公司没GB200,估计短时间内不会有进展


#13 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 02:19
magagop
fantasist 写了: 2025年 10月 31日 01:44

墙国的公司没GB200,估计短时间内不会有进展

華為不是牛皮吹得很大嗎?FP4都沒有?


#14 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 07:53
美华

你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参

tiantian2000 写了: 2025年 10月 30日 16:10

这么大人力资金,突破是早晚的


#15 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 07:54
美华

囼蛙网军看到个名词就到处用
不知道自己在说什么

magagop 写了: 2025年 10月 31日 02:19

華為不是牛皮吹得很大嗎?FP4都沒有?


#16 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 12:12
fantasist
magagop 写了: 2025年 10月 31日 02:19

華為不是牛皮吹得很大嗎?FP4都沒有?

实事求是地说,以后肯定会有,不过最近热炒UE8M0之类的名词,训练精度应该还在FP8。


#17 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 12:49
magagop
美华 写了: 2025年 10月 31日 07:54

囼蛙网军看到个名词就到处用
不知道自己在说什么

傻逼粉紅滾一邊去


#18 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 13:15
美华

囼蛙破防了

magagop 写了: 2025年 10月 31日 12:49

傻逼粉紅滾一邊去


#19 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 14:39
magagop
美华 写了: 2025年 10月 31日 13:15

囼蛙破防了

傻逼五毛只會拉屎挑釁,實際是草包一個。


#20 Re: 感觉LLM马上要发生系统变革

发表于 : 2025年 10月 31日 15:26
justChat

买gpu的rounding error,也足够吸引世界上最聪明的人群了。
我觉得问题恰好在这里。花几百亿买来的gpu,必然招人研究怎么运行,所以这些最聪明的人都在搞如何用几万、几十万gpu来训练。但谁也不知道这条路能不能产生商业价值(且不说agi,因为那东西没有公认定义)。
从gpt 3.5到5来看,希望渺茫。

美华 写了: 2025年 10月 31日 07:53

你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参