分页: 1 / 1

#1 Re: Deepseek的事我一开始觉得振奋

发表于 : 2025年 1月 29日 03:21
牛河梁
none 写了: 2025年 1月 28日 11:08 后来听说梁文峰是做量化投资的,
又看他的简历,本科毕业那年没能直接读研,
估计考了两次才读上研究生的。

我闻到一丝不确定。sorry
老牛一般不评论西爱死的东西。这次作为对能教授的支持说两句。如果老牛哪里理解错误欢迎指正。

1/ 大家应该先去读一下梁团队的论文再讨论。

2/ 老牛的理解是梁团队的“成功”在于应用了一个group方法。这个方法提出了几个月。作者是位老中。
2a/ 老牛不清楚这位老中是不是梁团队的
2b/ 梁团队一大贡献是花了500万验证并公布了有效性
2c/ 没有根据OpenAi或Meta或其它公司如xAi不知道这篇文章这个“新”方法。甚至有可能OpenAi已经用了这方法。

3/ 500万不是从零开始训练成本。而是在已有大模型基础上的训练一个小模型?的成本。这是第一个不严谨会引起质疑的地方。

4/ R1并不小,671b参数。而OpenAi的o1老牛找到的说是200-300b。不理解为什么说R1比o1运行成本低(那么多)。这是第二个不严谨会引起质疑的地方。

按学术标准。以上两点是警钟。

5/ 为什么不和o3比。o1属于上一代产品了。

#2 Re: Re: Deepseek的事我一开始觉得振奋

发表于 : 2025年 1月 29日 03:26
alexwlt1024
听说ds早就开始囤卡,鬼知道从零开始的成本是多少? 不是老夫喜欢黑china number one 但是很多事情都是要打问号的

#3 Re: Re: Deepseek的事我一开始觉得振奋

发表于 : 2025年 2月 20日 16:22
牛河梁
alexwlt1024 写了: 2025年 1月 29日 03:26 听说ds早就开始囤卡,鬼知道从零开始的成本是多少? 不是老夫喜欢黑china number one 但是很多事情都是要打问号的
DS显然卡囤得还不够。运行效率都“那么高”了。还是断网掉裤子。还一脸惊诧被西方敌对势力攻击。就像跃进号触礁沉没后一样。