分页: 1 / 2
#1 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 16:07
由 Caravel
#2 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 16:10
由 tiantian2000
#3 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 16:28
由 Caravel
现在都是中国公司在开源成果
我想信御三家也有不少成果
但是都不发表
#4 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 19:54
由 fantasist
Caravel 写了: 2025年 10月 30日 16:28
现在都是中国公司在开源成果
我想信御三家也有不少成果
但是都不发表
据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。
#5 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 19:57
由 Caravel
fantasist 写了: 2025年 10月 30日 19:54
据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。
中国今年AI公司大突破都得益于deepseek
去年很多公司都打退堂鼓了
kimi,GLM的基本架构都是V3
#6 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 20:02
由 fantasist
Caravel 写了: 2025年 10月 30日 19:57
中国今年AI公司大突破都得益于deepseek
去年很多公司都打退堂鼓了
kimi,GLM的基本架构都是V3
最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。
#7 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 22:50
由 longtian
小公司开源才能有fund呀,做个niche market,才能赚钱
不是要和大公司全面对标
fantasist 写了: 2025年 10月 30日 19:54
据说qwen也开始保守了,可以有选择地开源但训练细节公布得更少。
毕竟卖api甚至集成进自家流量产品挣钱才能长久。即使能从三位老祖那吸些功力,想训练出第一梯队的模型投入还是太高。我觉得高端开源不见得能一直做下去,当然业内很多人执完全相反的观点。
#8 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 23:11
由 Caravel
fantasist 写了: 2025年 10月 30日 20:02
最好用的qwen3一直坚持GQA,完全没用DS的架构。我问过他们,说没验证出MLA/NSA等有什么真正的优势。这个结论看起来跟我上一家公司去年的研究结果比较,形势似乎没有明显改变。不过这样也好,有多样性说明还有更多的探索动力,都收敛到一种架构上就无趣了。
“Qwen 3 的 MoE 结构与 DeepSeek 类似,也使用 256 个专家模块,但其激活策略略有不同”
网上看到的,deepseek是第一个使用如此多moe专家的开源模型。肯定是有所借鉴的。
#9 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 23:19
由 Caravel
longtian 写了: 2025年 10月 30日 22:50
小公司开源才能有fund呀,做个niche market,才能赚钱
不是要和大公司全面对标
开源打名声
赚钱应该是靠给公司做定制化
#10 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 30日 23:33
由 pnlmpnlm
#11 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 01:09
由 magagop
Caravel 写了: 2025年 10月 30日 16:07
越来越多公司在寻求突破目前的架构
論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。
#12 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 01:44
由 fantasist
magagop 写了: 2025年 10月 31日 01:09
論文不錯,有沒有FP4訓練的進展?感覺FP4算一個里程碑。
墙国的公司没GB200,估计短时间内不会有进展
#13 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 02:19
由 magagop
fantasist 写了: 2025年 10月 31日 01:44
墙国的公司没GB200,估计短时间内不会有进展
華為不是牛皮吹得很大嗎?FP4都沒有?
#14 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 07:53
由 美华
你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参
#15 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 07:54
由 美华
囼蛙网军看到个名词就到处用
不知道自己在说什么
magagop 写了: 2025年 10月 31日 02:19
華為不是牛皮吹得很大嗎?FP4都沒有?
#16 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 12:12
由 fantasist
magagop 写了: 2025年 10月 31日 02:19
華為不是牛皮吹得很大嗎?FP4都沒有?
实事求是地说,以后肯定会有,不过最近热炒UE8M0之类的名词,训练精度应该还在FP8。
#17 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 12:49
由 magagop
美华 写了: 2025年 10月 31日 07:54
囼蛙网军看到个名词就到处用
不知道自己在说什么
傻逼粉紅滾一邊去
#18 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 13:15
由 美华
囼蛙破防了
magagop 写了: 2025年 10月 31日 12:49
傻逼粉紅滾一邊去
#19 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 14:39
由 magagop
美华 写了: 2025年 10月 31日 13:15
囼蛙破防了
傻逼五毛只會拉屎挑釁,實際是草包一個。
#20 Re: 感觉LLM马上要发生系统变革
发表于 : 2025年 10月 31日 15:26
由 justChat
买gpu的rounding error,也足够吸引世界上最聪明的人群了。
我觉得问题恰好在这里。花几百亿买来的gpu,必然招人研究怎么运行,所以这些最聪明的人都在搞如何用几万、几十万gpu来训练。但谁也不知道这条路能不能产生商业价值(且不说agi,因为那东西没有公认定义)。
从gpt 3.5到5来看,希望渺茫。
美华 写了: 2025年 10月 31日 07:53
你只看到资金数字大,你看不到资金大部分都买了GPU。人大部分都在调参