李飞飞打脸Deepseek

股市相关讨论

版主: 牛河梁

money楼主
论坛点评
论坛点评
帖子互动: 202
帖子: 2393
注册时间: 2022年 8月 4日 12:59

#1 李飞飞打脸Deepseek

帖子 money楼主 »

人家50美元搞出了一个类DS
你DS花了500万,好意思吗?


李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

今日一则关于人工智能领域的新闻引发广泛关注。据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从Google模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

图片

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

图片

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

“以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

+2.00 积分 [版主 牛河梁 发放的奖励]
x2 图片 x2 图片

标签/Tags:
ferrygao
论坛元老
论坛元老
帖子互动: 811
帖子: 19552
注册时间: 2023年 8月 28日 11:36

#2 Re: 李飞飞打脸Deepseek

帖子 ferrygao »

我差 昨天不是30美元吗
x1 图片
知道很多人的居住环境以后 我终于明白为啥会有这些想法了
money楼主
论坛点评
论坛点评
帖子互动: 202
帖子: 2393
注册时间: 2022年 8月 4日 12:59

#3 Re: 李飞飞打脸Deepseek

帖子 money楼主 »

研究人员定了个盒饭,算上小费20
也要算到成本里
ferrygao 写了: 2025年 2月 6日 14:49 我差 昨天不是30美元吗
头像
YouHi
论坛元老
论坛元老
YouHi 的博客
帖子互动: 2810
帖子: 37547
注册时间: 2022年 7月 22日 22:36

#4 Re: 李飞飞打脸Deepseek

帖子 YouHi »

ferrygao 写了: 2025年 2月 6日 14:49 我差 昨天不是30美元吗
我擦,一个滑蛋虾仁就打发了。
著名网友名单
🇺🇸 NC CHINESE AMERICANS FOR TRUMP 🛩️
你也是Trump U毕业的吗???
ttywl8888
正式写手
正式写手
帖子互动: 36
帖子: 182
注册时间: 2022年 7月 21日 21:40

#5 Re: 李飞飞打脸Deepseek

帖子 ttywl8888 »

这牛笔吹的,笔记本是捡来的的是吗,电和网费是偷隔壁老王,写码的都是义工,桌子就摆在公厕?
x1 图片
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 706
帖子: 4841
注册时间: 2022年 7月 28日 14:44

#6 Re: 李飞飞打脸Deepseek

帖子 HouseMD(黄皮川黑) »

提炼1000个样本然后监督训练,成本是50刀,这听上去没问题啊。问题是deepseek也只是1000个样本么?
图片
Trump(敌在本能寺)
论坛支柱
论坛支柱
帖子互动: 1004
帖子: 11041
注册时间: 2022年 8月 1日 22:00

#7 Re: 李飞飞打脸Deepseek

帖子 Trump(敌在本能寺) »

money 写了: 2025年 2月 6日 14:54 研究人员定了个盒饭,算上小费20
也要算到成本里
够便宜的。在我们玉米地也得这个价了。
郁孤台下清江水,中间多少行人泪。刘郎已恨蓬山远,更隔蓬山一万重。
Trump(敌在本能寺)
论坛支柱
论坛支柱
帖子互动: 1004
帖子: 11041
注册时间: 2022年 8月 1日 22:00

#8 Re: 李飞飞打脸Deepseek

帖子 Trump(敌在本能寺) »

ferrygao 写了: 2025年 2月 6日 14:49 我差 昨天不是30美元吗
我准备把训练数据减半,25块钱训练出来的模型,应该性能也差不了多少。
郁孤台下清江水,中间多少行人泪。刘郎已恨蓬山远,更隔蓬山一万重。
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 706
帖子: 4841
注册时间: 2022年 7月 28日 14:44

#9 Re: 李飞飞打脸Deepseek

帖子 HouseMD(黄皮川黑) »

其实李飞飞完全可以只训练1个样本数据,然后benchmark也只针对这1个数据,然后发个shitpaper说只花了1美分,击败了deepseek。现在看来李飞飞还仁慈了呢
x1 图片 x1 图片
图片
money楼主
论坛点评
论坛点评
帖子互动: 202
帖子: 2393
注册时间: 2022年 8月 4日 12:59

#10 Re: 李飞飞打脸Deepseek

帖子 money楼主 »

飞飞论文上说了,DS只是蒸馏技术的一个实现
人家可没有直接照搬DS实现方法
玩蒸馏的还有好多家。。。

OpenAI describes their approach as using largescale reinforcement learning (RL) implying the use of sizable amounts of data (OpenAI, 2024). This has led to various attempts to replicate their models relying on techniques like Monte Carlo Tree Search (Gao et al., 2024b; Zhang et al.,
2024a), multi-agent approaches (Qin et al., 2024), and others (Wang et al., 2024a; Huang et al., 2024b; 2025). Among these approaches, DeepSeek R1 (DeepSeek-AI et al., 2025) has successfully replicated o1-level performance, also employing reinforcement learning via millions of samples and multiple training stages.
money楼主
论坛点评
论坛点评
帖子互动: 202
帖子: 2393
注册时间: 2022年 8月 4日 12:59

#11 Re: 李飞飞打脸Deepseek

帖子 money楼主 »

她只要打脸DS就够了
让中国的一群屌丝们happy了两周的闹剧,原来美帝50美元就可以做出来
HouseMD 写了: 2025年 2月 6日 15:11 其实李飞飞完全可以只训练1个样本数据,然后benchmark也只针对这1个数据,然后发个shitpaper说只花了1美分,击败了deepseek。现在看来李飞飞还仁慈了呢
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 706
帖子: 4841
注册时间: 2022年 7月 28日 14:44

#12 Re: 李飞飞打脸Deepseek

帖子 HouseMD(黄皮川黑) »

money 写了: 2025年 2月 6日 15:15 她只要打脸DS就够了
让中国的一群屌丝们happy了两周的闹剧,原因美帝50美元就可以做出来
那可真牛逼,原来50美刀就可以让美股市值蒸发这么多的啊。
x1 图片 x1 图片
图片
drifter
论坛精英
论坛精英
帖子互动: 442
帖子: 7387
注册时间: 2022年 9月 1日 04:17

#13 Re: 李飞飞打脸Deepseek

帖子 drifter »

李飞飞也来蹭热度 看来自己没啥真货?
netflix(nf)
论坛元老
论坛元老
帖子互动: 1013
帖子: 22833
注册时间: 2022年 8月 2日 04:48

#14 Re: 李飞飞打脸Deepseek

帖子 netflix(nf) »

money 写了: 2025年 2月 6日 14:48 人家50美元搞出了一个类DS
你DS花了500万,好意思吗?


李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

今日一则关于人工智能领域的新闻引发广泛关注。据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从Google模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

图片

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

图片

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

“以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。
你有多少股英伟达,反ds已经反到丧心病狂了
x1 图片
money楼主
论坛点评
论坛点评
帖子互动: 202
帖子: 2393
注册时间: 2022年 8月 4日 12:59

#15 Re: 李飞飞打脸Deepseek

帖子 money楼主 »

原因在恶意做空。。。
类似娱乐圈的炒八卦,什么烂事,先顶上头条再说

DS团队明显是恶意做空
他们也赚了几十亿美元了吧
HouseMD 写了: 2025年 2月 6日 15:17 那可真牛逼,原来50美刀就可以让美股市值蒸发这么多的啊。
x1 图片
Wishbone.Biao
著名写手
著名写手
帖子互动: 26
帖子: 248
注册时间: 2024年 4月 7日 18:27

#16 Re: 李飞飞打脸Deepseek

帖子 Wishbone.Biao »

这个论文的价值是揭露了Deep seek的真相,但是Deep seek不敢说的事实。
money 写了: 2025年 2月 6日 14:48 人家50美元搞出了一个类DS
你DS花了500万,好意思吗?


李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

今日一则关于人工智能领域的新闻引发广泛关注。据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从Google模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

图片

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

图片

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

“以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。
x1 图片 x1 图片
红烛歌楼
见习点评
见习点评
帖子互动: 90
帖子: 2025
注册时间: 2024年 9月 18日 21:29

#17 Re: 李飞飞打脸Deepseek

帖子 红烛歌楼 »

deepseek跟chatgpt都是一路,只管给出现在互联网上搜来的东西,貌似还给你整理一下,至于东西正确与否,它们都没有分辨能力也不可能分辨
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 706
帖子: 4841
注册时间: 2022年 7月 28日 14:44

#18 Re: 李飞飞打脸Deepseek

帖子 HouseMD(黄皮川黑) »

Wishbone.Biao 写了: 2025年 2月 6日 15:26 这个论文的价值是揭露了Deep seek的真相,但是Deep seek不敢说的事实。
deepseek的论文含金量比李飞飞这个shitpaper高多了,,,
x2 图片 x1 图片
图片
曾经5段
职业作家
职业作家
帖子互动: 66
帖子: 470
注册时间: 2023年 11月 27日 09:41

#19 Re: 李飞飞打脸Deepseek

帖子 曾经5段 »

就是说这玩意确实一钱不值? 她这不是打脸DS, 是成心把股市彻底搞垮
x1 图片 x1 图片
randomforest
著名写手
著名写手
帖子互动: 9
帖子: 226
注册时间: 2022年 7月 27日 10:45

#20 Re: 李飞飞打脸Deepseek

帖子 randomforest »

打个屁的脸,一个是建了一座楼,一个是装修了一座楼的一个窗户,老逼将能理解吗?
x2 图片
回复

回到 “股海弄潮(Stock)”