新未名空间

“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

fantasist 写了： 2025年 8月 14日 01:08
“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

好像一句话就是只招实战过大模型的人。所以新手一概完蛋。你们这样无法找齐deepseek这样的团队啊。

成龙最近说了为啥现在电影比以前的差，是因为现在都怕失败。所以只敢做些衍生的产品。llm也要陷入这个怪圈了

我来给你总结以下，没钱还要买88克拉，你们这种要求的话小札都要，人家开出来的是2亿包裹，你打算开出来多少，20万？剩下都靠情怀？

fantasist 写了： 2025年 8月 14日 01:08
“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

参考，Meta 花 $1B 挖人

笑死人，现在几百B参数的大模型一共也没几个吧，训过那些模型的人名单都在小札心理装着呢，小札搞不定的人，你肯定也搞不定

人也挺难的，自己培养的话，过几个月就被小札挖走了

赖美豪中写了： 2025年 8月 14日 09:12
我来给你总结以下，没钱还要买88克拉，你们这种要求的话小札都要，人家开出来的是2亿包裹，你打算开出来多少，20万？剩下都靠情怀？

没钱你玩什么大模型呀？我看prompt engineering也是不错的方向

赖美豪中写了： 2025年 8月 14日 09:12
我来给你总结以下，没钱还要买88克拉，你们这种要求的话小札都要，人家开出来的是2亿包裹，你打算开出来多少，20万？剩下都靠情怀？

比20万还是多不少的，但给再多也没法跟几个头部比。O的包裹本来就很大，为了不被挖人，给research部门每个普通员工发两年1.5米的bonus，核心员工肯定更多。小家小业的地方绝对没办法match这种待遇，其实我也很羡慕。

wildthing 写了： 2025年 8月 14日 09:07
好像一句话就是只招实战过大模型的人。所以新手一概完蛋。你们这样无法找齐deepseek这样的团队啊。

成龙最近说了为啥现在电影比以前的差，是因为现在都怕失败。所以只敢做些衍生的产品。llm也要陷入这个怪圈了

所以世界上只有一家ds。招一堆顶校的聪明年轻人，让他们自己形成顶尖团队，这个只敢梦里想象一下。我们对很聪明的newgrad已经放宽要求了，不要scaling的经验，训过模型能讲清楚就行。不过这样的人OA也喜欢呀，碰到过被抢走的。
而几年经验到很senior的，不提高bar怎么办。狂吹lead了多少项目，实际没有模型训练经验的大厂或学术圈混子太多了，招几个这样的人进来赌可以培养成能干活的人，说不定没几个月我们组全滚蛋了。

你这是追求局部优化的招人策略，基本上是死路一条。

招人不是这么招的。什么目前最火最红，就要一模一样的会干这个的，最好一来把活都给你干了。想啥呢？

两个问题：1.技术上追求局部最优往往很危险，大投入打水漂分分钟钟的事。扎克玩得起，你们玩不起。2. 当前最红最火的，人为什么给你干，你谁呀？

你以为别人都是傻子，不知道自己才是那个傻的。

上面我提到的公司，人家己有自己训的小模型，己经占领了市场，主打的就是垂直小模型，搞专门化，这才是明白人。面试是双向的，我老能看上的公司，必须得是明白人当政。

招人要招会解决问题的。具体问题具体分析。招一个只会当前最红最火的，你不知道他会不会具体问题具体分析。比如，他是个大模型宗教信徒，认为只有堆卡堆参数才灵，比如你这种，大部分公司不要这样的宗教人士。不会变通，是搞技术的最大的恶。

Premature optimization is the root of all evil. 也适用于招人。

fantasist 写了： 2025年 8月 14日 01:08
“Transformer大模型的本质是什么？”
ChatGPT给出的一句话总结：Transformer 大模型是一个基于注意力机制的通用函数逼近器，它通过全局信息路由与非线性变换，将序列建模为条件概率分布，并在大规模训练中学得复杂模式与知识。

这段话听起来很有道理，在总结文字的任务上，chatgpt比人强多了，还能生成各种花样。但能说出这句话代表能出活吗？当然不是。不论什么背景的面试者，平时都很容易看到这些话题的讨论，所以即使没做过能拿的出手的东西，也能吹上一堆。设计面试时如果不谨慎很容易掉入这个陷阱，导致无法挑出真正能干活的人，而是最会忽悠的。对于其它领域，会忽悠也许是强项，甚至在大厂不会忽悠根本上不去。但这几年在竞争最激烈的GenAI领域反复出现不懂的“leader”几个月带崩团队一手好牌打烂的案例，最惨烈的是Llama4。这也是为什么Alex被小扎拉去管一堆researcher，业界一片不看好的原因，因为他没真正干过，靠传了几手的知识去lead别人无法获得信任。IC影响力小一些，但招几个不懂的进来也会极大地拖后腿。大公司如Meta、Apple还能一次次reorg换人折腾，小公司是绝对承受不起的。

我认为我们公司虽然比不上顶尖foundation model公司，但也算认真搞AI的。来分析一下我们的招人思路，抛砖引玉。几个前提条件：
1.只谈技术问题，因为给不了钱招不到人之类场外因素的不在讨论范围。假设来面的有一部分是真懂的。
2.只谈严肃的模型训练。现在市面上大部分startup都叫xxx.ai，实际可能只是做些相关的东西比如data pipeline，或者prompt engineering+RAG的chatgpt wrapper，最多做一点垂类小模型微调，这类工作不是真正的训练模型，需要排除掉。
3.只谈Transformer based模型，不讨论已经很成熟的搜广推之类的其它ML方向。
3.招来的人要能立刻上手干活。我一直说GenAI目前是“你行你上啊”的阶段，只要不是太蠢，放在一个好的环境里至少工程方面肯定能学会。但一般情况下我们不招看上去很聪明却没有相关经验的人来慢慢培养，即使newgrad都不太会开这个口子。infra方面市场上的solid engineer挺多，比如面到的有些搞large scale job scheduling或stream processing，我相信他们有能力学会，只缺乏转行机会，但只能忍痛割爱。

真正的模型训练需要什么技能呢？主要有以下几点：
1.Scaling。因为有scaling law的存在，模型小了能力本身不行，导致只有训练过几百B大模型的人才能了解模型的潜力，有一些宝贵的domain knowledge。有些researcher受限于资源，无法在大模型上充分验证idea的真实表现，是巨大的劣势。
2.SOTA Algorithm。GenAI领域日新月异，每几个星期就会出现一些特别有意思的论文。即使很感兴趣愿意阅读，不持续做训练工作的人肯定无法跟上业界的进展。
3.Hands on coding。真正走在业界前沿的话，没有靠谱的开源框架拿来开箱即用，coding能力是必须的。很多时间需要自己实现论文里的算法或改框架，真训过模型的人不可能手生，不考coding会失去重要的signal。

所以面试会针对这些进行设计，一般粗略地分成两个role：research和training infra，面试时的侧重点不同。而且跟传统面试不一样，AI的范围太广，需要针对candidate的背景去问，绝对不能用lc形式的题目去判断水平。

先说training infra。
scaling: pytorch distributed，各种model parallelism，往深了还有cuda kernel等压榨显卡性能的手段。
algorithm: 虽然不需要研究，但可能需要在框架上实现paper里的algorithm，pytorch必须熟。
考coding时让写一下相关的，比如MoE模型一层的EP rank间如何通信，是真的干过还是简历吹牛一目了然。我面过一个烙印各种知识性的问题都答的不错，看到他简历上号称lead了某platform的long context training，正好我在做这个，就喊他手写一下sequence parallel的伪代码，他就直接GG了。总体来说这个职位还是偏infra，考察起来相对容易。问candidate项目的bottleneck是什么，用什么方法解决，几句话就可以大致判断做到了什么程度。

research的水分就大了。因为ML工业化至少有20多年，各种擦了个边的阿猫阿狗都敢跳出来号称是GenAI researcher。贴近我们工作内容的coding题是找一篇比较新的SOTA paper，让candidate实现一下核心算法的伪代码，然后根据实战经验解释与其它算法的优劣比较。有些东西是模型大了才能体现出真实的效果，所以这方面没做过的只能瞎吹，容易看穿。research背景方面当然也不能让candidate随口忽悠，一般要做个发过的paper的presentation讲出贡献细节。

市场有太多简历包装的很好看的调参侠们，实际上只是下载一个开源框架搞点数据训几B小模型看看曲线的所谓AI Researcher Scientist，没有任何research能力；或者在大厂混过data pipeline组然后title叫MLE，实际没有distributed training的实战经验，这些人都绝对通过不了我们的面试。我们的问题是bar太高，看上的人基本一手OA同级的offer，包裹是秒杀我们的，招人异常艰难，不得不反思，来倒倒苦水。最近连续两个月每天辛苦搬砖之余，每周还要面几个人，到后来跟同事讨论某个candidate的表现都得先查一下自己写了啥feedback才能想起来说的是谁，实在身心俱疲。偶尔碰到水平很不错的candidate，恨不得当场哭求赶紧来带帮我们。

从招人的角度再回顾一下如何抢进赛道喝口汤，别人的视频通俗易懂：站内帖子：普通程序员如何转行为高附加值的AI Engineer 。那个视频缺乏一些具体技能的市场稀缺性的细节，我的帖子是非常好的补充。如果有拿的出手的research成果，paper能直接甩别人脸上的那种，多半已经被小扎reach out了，目前还没看到哪位来本论坛指点江山，如果有机会很希望能聆听大佬的教诲。而绝大多数人不是这样的牛人，所以有志者要针对市场需求去培养技能。我认为现在市场最紧俏的人才，首推能在SOTA算法的基础上真正提高大模型的实际产品能力，其次写过对应的大规模训练框架，以及没有提及的深度推理优化和多模态专长。其它在边缘蹭一蹭的职位比如搞服务器调度(job scheduling / storage / networking)、data pipeline、传统ML算法、AI product frontend/backend的附加值都很有限。因为GenAI整个stack已经非常复杂，方向很容易选错，进一个实际上不掌握核心技术的所谓AI组，白白耗去至少一两年才有机会跳出来，是非常frustrating的事。我个人就有踩坑的惨痛经历，所以很理解大部分人没勇气迈出转方向的一步。
反过来再看如何挑选公司，也是同样的道理。面试时如果只问些假大空话题，比如现在AI模型有什么局限（如果身边有人高谈阔论只讲这些而不敢涉及具体算法的实际应用效果，不敢说百分百，99.9%的概率他其实是不懂的），或者拿些QKV分别是什么意思、loss不收敛怎么办的八股来考（小红书上一堆这种题），绝对是red flag。大概率这公司的人本身就不懂，才只能问这些，按网上题库质量参差不齐的答案去打分。我觉得不妨参考一个很简单的指标，就问他们训练多大的模型，有多少卡。基本上这个公司/组的能力你就了解90%了。过几年怎么样我不知道，但现在真金白银买卡烧钱的，才是能学到最多东西的好地方（大厂的卡总数虽多一定要看具体的组）。如果平时连几百张GPU都摸不到，一定要谨慎考虑。

hci 写了： 2025年 8月 14日 12:08
你这是追求局部优化的招人策略，基本上是死路一条。

招人不是这么招的。什么目前最火最红，就要一模一样的会干这个的，最好一来把活都给你干了。想啥呢？

两个问题：1.技术上追求局部最优往往很危险，大投入打水漂分分钟钟的事。扎克玩得起，你们玩不起。2. 当前最红最火的，人为什么给你干，你谁呀？

你以为别人都是傻子，不知道自己才是那个傻的。

上面我提到的公司，人家己有自己训的小模型，己经占领了市场，主打的就是垂直小模型，搞专门化，这才是明白人。面试是双向的，我老能看上的公司，必须得是明白人当政。

招人要招会解决问题的。具体问题具体分析。招一个只会当前最红最火的，你不知道他会不会具体问题具体分析。比如，他是个大模型宗教信徒，认为只有堆卡堆参数才灵，比如你这种，大部分公司不要这样的宗教人士。不会变通，是搞技术的最大的恶。

Premature optimization is the root of all evil. 也适用于招人。

niche垂类产品又不是啥新idea，前几年做大了的叫SaaS，现在不火了。GenAI出来以后提高了domain expert的效地起步，最少一个人也能单干，TAM小所以竞争不激烈，确实算一条可以接受的路，可惜上限不高。觉得避开竞争挣几百k小钱就满足的是明白，当然也是一种不错的人生态度。不过人生苦短，能持续输出的应当不超过20年。在这种安逸的小公司，很可能一躺5年过去，然后发现啥都没干出来，技术从一开始就是落后的。从某种意义上，这样跟大厂混子异曲同工，挣的一般还不如人家多。别的地方不好说，硅谷有think big获得更高收益的土壤，既然要赌纸钱，当然要选最红最火的方向。

啥，你以为目前最新最火的能火二十年？想啥呢？

再说了，你又不是扎克，兜里没几个钱，还要去与扎克扎堆，这不是脑子有问题是什么？你们公司策略有问题。

你没有想明白。一个公司，追求的是垄断。本质上没有垄断，就没有生存。要想垄断一个行当，就要垂直深挖。就这么简单个事。不复杂。

fantasist 写了： 2025年 8月 14日 12:35
niche垂类产品又不是啥新idea，前几年做大了的叫SaaS，现在不火了。GenAI出来以后提高了domain expert的效地起步，最少一个人也能单干，TAM小所以竞争不激烈，确实算一条可以接受的路，可惜上限不高。觉得避开竞争挣几百k小钱就满足的是明白，当然也是一种不错的人生态度。不过人生苦短，能持续输出的应当不超过20年。在这种安逸的小公司，很可能一躺5年过去，然后发现啥都没干出来，技术从一开始就是落后的。从某种意义上，这样跟大厂混子异曲同工，挣的一般还不如人家多。别的地方不好说，硅谷有think big获得更高收益的土壤，既然要赌纸钱，当然要选最红最火的方向。

hci 写了： 2025年 8月 14日 12:42
你以为目前最新最火的能火二十年？想啥呢？

我的意思是有20年的机会，走对路了5年退休。当然慢慢混20年，生活质量可能也不错。
这都是人生选择，跑题有点远了。我的帖子主要是帮助大家了解到模型训练到底要做什么，如果想走这条路，如何鉴别伪装的AI专家和伪装的.ai公司。至于个人选择什么道路，只能是YMMV。

你觉得你选对了，那你去找扎克自荐呀。你咋不去呢？2亿大包谁都知道很好，要你说么？

我老婆以前的一个实习生倒是拿了扎克大包的，可我老婆的组是发表“Rule-Based Information Extraction is Dead! Long Live Rule-Based Information Extraction Systems!"这种文章的，就没有一个AGI信徒。她的一个苹果的同事也拿了，也不是AGI信徒。你咋说？

你这是赌徒心态，人生不是这么玩的。玩脱了咋办。

fantasist 写了： 2025年 8月 14日 12:51
我的意思是有20年的机会，走对路了5年退休。当然慢慢混20年，生活质量可能也不错。
这都是人生选择，跑题有点远了。我的帖子主要是帮助大家了解到模型训练到底要做什么，如果想走这条路，如何鉴别伪装的AI专家和伪装的.ai公司。至于个人选择什么道路，只能是YMMV。

就问Candidate 信不信AGI/ASI。信的话直接淘汰。不信的话有可能懂一点，进入下一轮。

其实问”Transformer的性质是什么“，本质上就是看是不是AGI教的信徒，信徒直接淘汰。

iDude 写了： 2025年 8月 14日 12:54
就问Candidate 信不信AGI/ASI。信的话直接淘汰。不信的话有可能懂一点，进入下一轮。

iDude 写了： 2025年 8月 14日 12:54
就问Candidate 信不信AGI/ASI。信的话直接淘汰。不信的话有可能懂一点，进入下一轮。

完了。老牛信AGI。难怪老牛没混到过大包。

hci 写了： 2025年 8月 14日 12:52
你觉得你选对了，那你去找扎克自荐呀。你咋不去呢？2亿大包谁都知道很好，要你说么？

你这是赌徒心态，人生不是这么玩的。

玩脱了咋办。

啥叫玩脱了？即使公司黄了不过损失大厂的RSU部分+潜在的投资收益罢了。新人这部分收益非常少，老人之前应该赚足了也不缺这点添头。所以实际上投入的机会成本并不是想象中那么可怕。
现实就是MLE包裹就是比SWE大，大部分人拿不到2亿大包，但对于普通人来说，在同一家公司内横向比较，差距都不小。要是怕startup的风险，去大厂拿现钱也不错。

你直接去应聘meta或者找人把你们买了不就完事了

fantasist 写了： 2025年 8月 14日 10:31
比20万还是多不少的，但给再多也没法跟几个头部比。O的包裹本来就很大，为了不被挖人，给research部门每个普通员工发两年1.5米的bonus，核心员工肯定更多。小家小业的地方绝对没办法match这种待遇，其实我也很羡慕。

hci 写了： 2025年 8月 14日 12:42
啥，你以为目前最新最火的能火二十年？想啥呢？

再说了，你又不是扎克，兜里没几个钱，还要去与扎克扎堆，这不是脑子有问题是什么？你们公司策略有问题。

你没有想明白。一个公司，追求的是垄断。本质上没有垄断，就没有生存。要想垄断一个行当，就要垂直深挖。就这么简单个事。不复杂。

帮一个公司训练一个针对这个公司的模型，如何？一次性服务。收费多少？我知道好多公司有这个需求。

新未名空间

如何招到真懂GenAI的人

#1 如何招到真懂GenAI的人

#2 Re: 如何招到真懂GenAI的人

#3 Re: 如何招到真懂GenAI的人

#4 Re: 如何招到真懂GenAI的人

#5 Re: 如何招到真懂GenAI的人

#6 Re: 如何招到真懂GenAI的人

#7 Re: 如何招到真懂GenAI的人

#8 Re: 如何招到真懂GenAI的人

#9 Re: 如何招到真懂GenAI的人

#11 Re: 如何招到真懂GenAI的人

#12 Re: 如何招到真懂GenAI的人

#13 Re: 如何招到真懂GenAI的人

#14 Re: 如何招到真懂GenAI的人

#15 Re: 如何招到真懂GenAI的人

#16 Re: 如何招到真懂GenAI的人

#17 Re: 如何招到真懂GenAI的人

#18 Re: 如何招到真懂GenAI的人

#19 Re: 如何招到真懂GenAI的人

#20 Re: 如何招到真懂GenAI的人

#21 Re: 如何招到真懂GenAI的人