新未名空间

不畏Open ai的光环所吓到...
走自己的路这是非常值得赞誉的

BTW... 没人要贬低Open ai的成就... 他是开拓者

科学技术的进步... 很多时候就需要这种闯劲...
这样大家才能一起进步...

你想 DeepSeek 只花了$5 M 就做出这种高水平的语言模型...

$5M 这些钱... 三哥也出得起的...

OpenA对NLP的主要贡献有两个：
1. 跑通了Decoder-only
2. 确认了Scaling law

DeepSeek的这个贡献是同级别的，不光是省了算力，而且还证明了获得了更好的推理能力，暗示了人脑具有的类似结构的数学意义。

BTW，当年DeepLearning兴起的标志，是辛顿的学生Alex在宿舍用组装机干死了吴恩达的Google超大集群

UncleTony 写了： 2024年 12月 29日 06:39 不畏Open ai的光环所吓到...
走自己的路这是非常值得赞誉的

BTW... 没人要贬低Open ai的成就... 他是开拓者

xiaoju 写了： 2024年 12月 29日 06:55 OpenA对NLP的主要贡献有两个：
1. 跑通了Decoder-only
2. 确认了Scaling law

DeepSeek的这个贡献是同级别的，不光是省了算力，而且还证明了获得了更好的推理能力，暗示了人脑具有的类似结构的数学意义。

BTW，当年DeepLearning兴起的标志，是辛顿的学生Alex在宿舍用组装机干死了吴恩达的Google超大集群

是的... DeepSeek 贡献是强调算法的重要性... 而且我认为算法讲来肯定更重要！

而且会有一大批公司跟进了... 以前以为大模型是烧海量的钱才能玩的... 现在发现根本不必

我认为最大的输家是女大
是皮夹克黄

赢家是许多渴望探索AGI 大批小公司... 没有Open AI口袋那么深也可以做事情

UncleTony 写了： 2024年 12月 29日 07:15 我认为最大的输家是女大
是皮夹克黄

赢家是许多渴望探索AGI 大批小公司... 没有Open AI口袋那么深也可以做事情

要点脸吧，把open AI 3.0run过的数据打包再run一次很光荣吧LOL

TSG 写了： 2024年 12月 29日 07:19 要点脸吧，把open AI 3.0run过的数据打包再run一次很光荣吧LOL

你就别在这胡搅蛮缠丢人现眼了！

现在的性能评估都标准化了...
比如你的手机电脑甚至超大计算机 ...
他们性能评估都有一套标准
大家用他来跑分来评价性能？
你去看看DeepSeek 跑分是否很高？
OK?

女大要被抛弃了...

https://huaren.us/showtopic.html?topicid=3074157

据说伪造图片的原帖早被删除了

DeepSeek这个报告对Nvidia股价有潜在冲击，美股开盘之前各种势力都在较力

UncleTony 写了： 2024年 12月 29日 07:25 你就别在这胡搅蛮缠丢人现眼了！

现在的性能评估都标准化了...
比如你的手机电脑甚至超大计算机 ...
他们性能评估都有一套标准
大家用他来跑分来评价性能？
你去看看DeepSeek 跑分是否很高？
OK?

deepseek免费，你丫伪造的时候至少也要看看界面在来。。。

woshidajiangyoude 写了： 2024年 12月 29日 07:18

发帖者Andrej Karpathy

李飞飞学生，斯坦福CS231n助教和主要讲师，曾任特斯拉人工智能总监，也是openAI的联合创始人。。。

UncleTony 写了： 2024年 12月 29日 07:49 女大要被抛弃了...

https://huaren.us/showtopic.html?topicid=3074157

xiaoju 写了： 2024年 12月 29日 08:04 发帖者Andrej Karpathy

李飞飞学生，斯坦福CS231n助教和主要讲师，曾任特斯拉人工智能总监，也是openAI的联合创始人。。。

DeepSeek 新闻是周五出来的... 经过这一个周末的发酵
怎样对待女大... 投资人星期一会做出反应... 我认为

你这个时候来调过得，人家一早上无数人试过了。就是拿跑过得模型再跑一遍token，可不就花一点钱么

xiaoju 写了： 2024年 12月 29日 07:57 deepseek免费，你丫伪造的时候至少也要看看界面在来。。。

妈逼的TSG这几只屎壳郎，整天在这里光屁股推磨转圈丢人。

老子牵只阿三出来在地上拉坨屎，把TSG这个傻逼一脚踩进屎堆里。

我觉得没那么快，毕竟现在大部分Nvidia的股东并不懂技术

但是空头一定会悄悄增加很多

UncleTony 写了： 2024年 12月 29日 08:08 DeepSeek 新闻是周五出来的... 经过这一个周末的发酵
怎样对待女大... 投资人星期一会做出反应... 我认为

这个是开源的程序，肯定有很多shoestring budget的小公司迫不及待地试用，等上一段时间就会反应到股价上。

据说DeepSeek根据自己run的情况还向女大提出了gpu架构的改进要求。

报告写得很清楚，pretrain只花了500万刀，SFT大概花了几千

而且他们是直接用了float8加MoE，而不是像openai传统手段那样float32做出来后量化

现在业界正在加班研究，到底是什么东西实现了突破

现在OpenAI的奥特曼已经出离愤怒，指桑骂槐了

赖美豪中写了： 2024年 12月 29日 08:17 你这个时候来调过得，人家一早上无数人试过了。就是拿跑过得模型再跑一遍token，可不就花一点钱么

其实不算是改进要求，是冷潮热讽。。。

简单说就是他们认为现在的GPU架构需要彻底改动

rtscts 写了： 2024年 12月 29日 08:27 这个是开源的程序，肯定有很多shoestring budget的小公司迫不及待地试用，等上一段时间就会反应到股价上。

据说DeepSeek根据自己run的情况还向女大提出了gpu架构的改进要求。

新未名空间

敢为天下人先！就是DeepSeek 正在做的事情...

#1 敢为天下人先！就是DeepSeek 正在做的事情...

#2 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#4 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#5 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#6 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#7 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#8 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#9 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#10 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#11 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#12 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#13 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#14 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#15 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#16 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#17 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#18 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#19 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#20 Re: 敢为天下人先！就是DeepSeek 正在做的事情...

#21 Re: 敢为天下人先！就是DeepSeek 正在做的事情...