新未名空间

还是琢磨怎么用吧

Fake it till you make it

骗子图啥呢？

wass 写了： 2025年 7月 16日 06:10 还是琢磨怎么用吧

对呀，骗啥呢？

mmking 写了： 2025年 7月 16日 06:23 骗子图啥呢？

mmking 写了： 2025年 7月 16日 06:23 骗子图啥呢？

觉得自己能标新立异唄。调几个api，没训过模型，连eval dataset都没搞过，找到几个不work的例子就出来大喊“我就说AI不行吧”。现在不用AI还可以活，过几年不得不用AI的时候，大部分这种人可能就消停了，剩下些最嘴硬的。

AI不是骗子，AGI是骗子。
卖什么吆喝什么，鼓吹AI会让码农失业的AI从业者是骗子。

你用AI写过代码，或者修改现成的屎山么？你用的哪套系统，什么语言，效果如何？

我尝试过copilot和cursor，在修改现成的屎山任务上面，一个是灾难，另一个是鸡肋。

训练模型肯定需要技术和经验，但是作为一个编程工具来使用AI，我觉得还是没有那么高的门槛。在AI真正好用以前做个early adoper的用户意义不大。

fantasist 写了： 2025年 7月 16日 11:41 觉得自己能标新立异唄。调几个api，没训过模型，连eval dataset都没搞过，找到几个不work的例子就出来大喊“我就说AI不行吧”。现在不用AI还可以活，过几年不得不用AI的时候，大部分这种人可能就消停了，剩下些最嘴硬的。

Havana 写了： 2025年 7月 16日 22:43 你用AI写过代码，或者修改现成的屎山么？你用的哪套系统，什么语言，效果如何？

我尝试过copilot和cursor，在修改现成的屎山任务上面，一个是灾难，另一个是鸡肋。

训练模型肯定需要技术和经验，但是作为一个编程工具来使用AI，我觉得还是没有那么高的门槛。在AI真正好用以前做个early adoper的用户意义不大。

我现在搞training framework，基本全是python。AI帮忙解释vllm项目之类的屎山代码逻辑还是很有帮助的，比肉眼看逻辑和查文档快很多。因为我做的training infra scale比较大，还涉及到算法，没有开源项目实现过，也没几个大厂内部搞过，不可能有足够稳定、well documented训练数据，而且运行一次费时长，必须很小心。这方面让AI自己上手编写或修改然后运行这些代码肯定是不现实的，只能自己一点点试，所以不具有代表性。目前coding agent写个网站什么的因为有大量开源template，运行迭代也容易，这方面能力成熟多了。

fantasist 写了： 2025年 7月 17日 13:58 我现在搞training framework，基本全是python。AI帮忙解释vllm项目之类的屎山代码逻辑还是很有帮助的，比肉眼看逻辑和查文档快很多。因为我做的training infra scale比较大，还涉及到算法，没有开源项目实现过，也没几个大厂内部搞过，不可能有足够稳定、well documented训练数据，而且运行一次费时长，必须很小心。这方面让AI自己上手编写或修改然后运行这些代码肯定是不现实的，只能自己一点点试，所以不具有代表性。目前coding agent写个网站什么的因为有大量开源template，运行迭代也容易，这方面能力成熟多了。

Vllm是inference framework还是training fw？

wass 写了： 2025年 7月 17日 18:11 Vllm是inference framework还是training fw？

现在早就不是sft打天下的时代啦。RL尤其是GRPO需要大量rollout，都是training加inference一起弄，难度非常高。

fantasist 写了： 2025年 7月 17日 18:30 现在早就不是sft打天下的时代啦。RL尤其是GRPO需要大量rollout，都是training加inference一起弄，难度非常高。

这样才是有意思的讨论，而不是天天交白卷、反潮流、爽歪歪

这个板上谁跑过deepseek 的inference? 来吹吹?

我个人整三个星期(筹备机器两个月)左右把草台子搭起来.当然您有一键云CD,书就就跪求您plan了.

ai工具不可能什么都行，但是流行的东西它很好

heteroclinic 写了： 2025年 7月 17日 20:08 这个板上谁跑过deepseek 的inference? 来吹吹?

我个人整三个星期(筹备机器两个月)左右把草台子搭起来.当然您有一键云CD,书就就跪求您plan了.

RE

在另外一个帖子提到时间事件关联
就涉及到一个概念叫可变性,就是物理规律会随时间变化而变化
比如赛马因为服用紧要被取消成绩而且具有回溯期. 禁药也可能随时间变化更新.

没有啥AI A不I,就是山头利益.

heteroclinic 写了： 2025年 7月 17日 20:08 这个板上谁跑过deepseek 的inference? 来吹吹?

我个人整三个星期(筹备机器两个月)左右把草台子搭起来.当然您有一键云CD,书就就跪求您plan了.

fp8 checkpoint在H200x8机器上可以直接单机跑。当然我们是因为自己调了以后self host，你要直接用原版肯定直接调API方便。
别的inference framework不清楚，vllm对dsv3的支持没问题，多node TP/PP都work out of the box。核心问题还是你为啥要self host，不能justify的话别搞这个。

fantasist 写了： 2025年 7月 17日 20:30 fp8 checkpoint在H200x8机器上可以直接单机跑。当然我们是因为自己调了以后self host，你要直接用原版肯定直接调API方便。

给个GITHUB倍,有点疑问,你单机跑,IP清单你怎么设置的. 可能就是你说的self host我没调明白.
最后意思下,能简单跑个什么东西,我忘了.
整个过程,每个计划都充满漏洞,尤其是你自己拼硬件.
H200x8云CD愿闻其翔

最后我说的是DEEPSEEK 72B tokens那个inference.消除一下歧义

fantasist 写了： 2025年 7月 17日 20:30 核心问题还是你为啥要self host，不能justify的话别搞这个。

deepseek打积雪一样说的你可以self host

heteroclinic 写了： 2025年 7月 17日 20:39 deepseek打积雪一样说的你可以self host

你老LOL是Deepseek的老板么,有点不太严肃.let's say, we 假装闷儿你毕业答辩. I suppose you won't cheat and lie under pressure.

wass 写了： 2025年 7月 17日 20:06 这样才是有意思的讨论，而不是天天交白卷、反潮流、爽歪歪

认真搞post-train的没个千卡H100之类的都是在玩屁吃，pre-train更是万卡起步，硬件门槛太高。大部分人根本没机会接触真正的模型训练，很多phd也只能拿个8b llama训练刷benchmark。只能用别人装好的AI产品，或者调API做点prompt engineering，或者拿langchain之流搭RAG产品，发现不work没有能力自己干模型于是没办法解决，然后开始说AI是骗局，实属情有可原。模型参数从几B到几十B到几百B，智能的差别是巨大的。kimi-k2搞了个超过1T的开源大模型，我们做ai infra的看了直吐血。T级别的模型能玩转的，世界上确实没多少人，所以小扎掏100米砸那些实力已经有证明的专家，我们公司没钱所以想招个懂的newgrad phd都费劲。

新未名空间

现在说ai是骗子的都是骗子

#1 现在说ai是骗子的都是骗子

#2 Re: 现在说ai是骗子的都是骗子

#3 Re: 现在说ai是骗子的都是骗子

#4 Re: 现在说ai是骗子的都是骗子

#5 Re: 现在说ai是骗子的都是骗子

#6 Re: 现在说ai是骗子的都是骗子

#7 Re: 现在说ai是骗子的都是骗子

#8 Re: 现在说ai是骗子的都是骗子

#9 Re: 现在说ai是骗子的都是骗子

#10 Re: 现在说ai是骗子的都是骗子

#11 Re: 现在说ai是骗子的都是骗子

#12 Re: 现在说ai是骗子的都是骗子

#13 Re: 现在说ai是骗子的都是骗子

#14 Re: 现在说ai是骗子的都是骗子

#15 Re: 现在说ai是骗子的都是骗子

#16 Re: 现在说ai是骗子的都是骗子

#17 Re: 现在说ai是骗子的都是骗子

#18 Re: 现在说ai是骗子的都是骗子

#19 Re: 现在说ai是骗子的都是骗子

#20 Re: 现在说ai是骗子的都是骗子