对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。
版主: Softfist
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
不畏Open ai的光环所吓到...
走自己的路 这是非常值得赞誉的


BTW... 没人要贬低Open ai的成就... 他是开拓者

-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
科学技术的进步... 很多时候就需要这种闯劲...
这样大家才能一起进步...
你想 DeepSeek 只花了$5 M 就做出这种高水平的语言模型...
$5M 这些钱... 三哥也出得起的...
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
OpenA对NLP的主要贡献有两个:
1. 跑通了Decoder-only
2. 确认了Scaling law
DeepSeek的这个贡献是同级别的,不光是省了算力,而且还证明了获得了更好的推理能力,暗示了人脑具有的类似结构的数学意义。
BTW,当年DeepLearning兴起的标志,是辛顿的学生Alex在宿舍用组装机干死了吴恩达的Google超大集群
UncleTony 写了: 2024年 12月 29日 06:39
不畏Open ai的光环所吓到...
走自己的路 这是非常值得赞誉的


BTW... 没人要贬低Open ai的成就... 他是开拓者
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
xiaoju 写了: 2024年 12月 29日 06:55
OpenA对NLP的主要贡献有两个:
1. 跑通了Decoder-only
2. 确认了Scaling law
DeepSeek的这个贡献是同级别的,不光是省了算力,而且还证明了获得了更好的推理能力,暗示了人脑具有的类似结构的数学意义。
BTW,当年DeepLearning兴起的标志,是辛顿的学生Alex在宿舍用组装机干死了吴恩达的Google超大集群
是的... DeepSeek 贡献是强调算法的重要性... 而且我认为算法讲来肯定更重要!
而且会有一大批公司跟进了... 以前以为大模型是烧海量的钱才能玩的... 现在发现根本不必
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
我认为最大的输家 是女大
是皮夹克黄
赢家是许多渴望探索AGI 大批小公司... 没有Open AI口袋那么深也可以做事情
-
woshidajiangyoude
- 知名作家

- 帖子互动: 26
- 帖子: 842
- 注册时间: 2022年 7月 23日 12:37
帖子
由 woshidajiangyoude »
01 14 14 04
11 07 06 09
08 10 10 05
13 02 03 15
-
TSG(VV)
- 论坛支柱

- 帖子互动: 917
- 帖子: 12849
- 注册时间: 2022年 8月 2日 09:59
帖子
由 TSG(VV) »
UncleTony 写了: 2024年 12月 29日 07:15
我认为最大的输家 是女大
是皮夹克黄
赢家是许多渴望探索AGI 大批小公司... 没有Open AI口袋那么深也可以做事情
要点脸吧,把open AI 3.0run过的数据打包再run一次很光荣吧LOL
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
TSG 写了: 2024年 12月 29日 07:19
要点脸吧,把open AI 3.0run过的数据打包再run一次很光荣吧LOL
你就别在这胡搅蛮缠 丢人现眼了!

现在的性能评估都标准化了...
比如你的手机 电脑 甚至超大计算机 ...
他们性能评估都有一套标准
大家用他来跑分 来评价性能?
你去看看DeepSeek 跑分是否很高?
OK?
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
据说伪造图片的原帖早被删除了
DeepSeek这个报告对Nvidia股价有潜在冲击,美股开盘之前各种势力都在较力
UncleTony 写了: 2024年 12月 29日 07:25
你就别在这胡搅蛮缠 丢人现眼了!

现在的性能评估都标准化了...
比如你的手机 电脑 甚至超大计算机 ...
他们性能评估都有一套标准
大家用他来跑分 来评价性能?
你去看看DeepSeek 跑分是否很高?
OK?
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
deepseek免费,你丫伪造的时候至少也要看看界面在来。。。

-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
发帖者Andrej Karpathy
李飞飞学生,斯坦福CS231n助教和主要讲师,曾任特斯拉人工智能总监,也是openAI的联合创始人。。。
-
UncleTony(Tony叔)楼主
- 自助冻结

- 帖子互动: 163
- 帖子: 4345
- 注册时间: 2024年 5月 20日 18:38
帖子
由 UncleTony(Tony叔)楼主 »
xiaoju 写了: 2024年 12月 29日 08:04
发帖者Andrej Karpathy
李飞飞学生,斯坦福CS231n助教和主要讲师,曾任特斯拉人工智能总监,也是openAI的联合创始人。。。
DeepSeek 新闻是周五出来的... 经过这一个周末的发酵
怎样对待女大... 投资人星期一会做出反应... 我认为
-
赖美豪中(my pronouns: ha/ha)
- 论坛元老

2023年度优秀版主
- 帖子互动: 4123
- 帖子: 44658
- 注册时间: 2022年 9月 6日 12:50
帖子
由 赖美豪中(my pronouns: ha/ha) »
你这个时候来调过得,人家一早上无数人试过了。就是拿跑过得模型再跑一遍token,可不就花一点钱么
xiaoju 写了: 2024年 12月 29日 07:57
deepseek免费,你丫伪造的时候至少也要看看界面在来。。。
If printing money would end poverty, printing diplomas would end stupidity.
-
rtscts
- 论坛精英

- 帖子互动: 770
- 帖子: 7760
- 注册时间: 2023年 9月 10日 15:11
帖子
由 rtscts »
妈逼的TSG这几只屎壳郎,整天在这里光屁股推磨转圈丢人。
老子牵只阿三出来在地上拉坨屎,把TSG这个傻逼一脚踩进屎堆里。
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
我觉得没那么快,毕竟现在大部分Nvidia的股东并不懂技术
但是空头一定会悄悄增加很多
UncleTony 写了: 2024年 12月 29日 08:08
DeepSeek 新闻是周五出来的... 经过这一个周末的发酵
怎样对待女大... 投资人星期一会做出反应... 我认为
-
rtscts
- 论坛精英

- 帖子互动: 770
- 帖子: 7760
- 注册时间: 2023年 9月 10日 15:11
帖子
由 rtscts »
这个是开源的程序,肯定有很多shoestring budget的小公司迫不及待地试用,等上一段时间就会反应到股价上。
据说DeepSeek根据自己run的情况还向女大提出了gpu架构的改进要求。
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
报告写得很清楚,pretrain只花了500万刀,SFT大概花了几千
而且他们是直接用了float8加MoE,而不是像openai传统手段那样float32做出来后量化
现在业界正在加班研究,到底是什么东西实现了突破
现在OpenAI的奥特曼已经出离愤怒,指桑骂槐了
赖美豪中 写了: 2024年 12月 29日 08:17
你这个时候来调过得,人家一早上无数人试过了。就是拿跑过得模型再跑一遍token,可不就花一点钱么
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1043
- 帖子: 25564
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
其实不算是改进要求,是冷潮热讽。。。
简单说就是他们认为现在的GPU架构需要彻底改动
rtscts 写了: 2024年 12月 29日 08:27
这个是开源的程序,肯定有很多shoestring budget的小公司迫不及待地试用,等上一段时间就会反应到股价上。
据说DeepSeek根据自己run的情况还向女大提出了gpu架构的改进要求。