新未名空间

首先提一下之前发的帖子(站内帖子：对GenAI现状感兴趣的推荐一点资料)，推荐先听一下Hinton的访谈，他认为随着研究的深入，越来越觉得LLM的工作模式像人脑，而不是找出越来越多与人脑不同的地方。我作为传统ML转到LLM的从业者，对这段话深有同感。以前的ML技术，即使是最先进的大规模推荐系统，号称比你自己更了解你，也绝对不会带来这种感觉，但LLM完全不一样。

版上认为AI不行的观点，在我看来都是有问题的。排除那些什么人类有灵魂而AI没有，让华人搞AI是美帝统治阶级阴谋之类的呓语，不在讨论范围，有需求请自行去看精神科医生。正常的反对观点，其实可以归结为对AI有错误的期待。如果把AI看待成一颗人脑来进行要求，现在的很多能力不足的地方就可以深入地探讨，而不是直接抛出一个LLM不行的结论。分析一下几个主要的谬误：

1. AI不精确所以不能用。人脑也不是精确的，不管记忆、计算还是推理，都充满了随机性和错误，需要大量训练帮助提高某个task上的稳定性，而且最好还是学会用精确的工具去做。AI在替代人类worker的过程中，不需要一个比人类高的多的精确率。一个很简单的例子是让两个大数字相加，AI如果直接生成一个答案多半不对。但只要你要求它一位位数字加起来，给个sample ，它基本可以做对，是不是跟人类学生差不多？

2.1 AI生成的代码往往不对。一个很有趣的例子是如果引用的library有多个不同的版本，模型记忆中的API很可能与当前使用的版本不同，导致生成的代码不对。这个到底是模型本身不行，还是别的问题呢？我们可以先参考人类是怎么解决此类问题的。码工碰到lib版本跟记忆中对不上，导致写出来的代码编译不过运行不了，这种事其实是非常普遍的，没有人会因此骂码工是傻逼。此时码工会去找相应版本的doc读一下，找到正确的API后再重写；或者偷懒google一下别人是不是碰到过同样的错误，有什么解决方案，ctrl-C ctrl-V一下。完整的context （lib版本号）与外界知识库的交互access是必须的，否则不可能得到准确答案。这些东西属于agent方向的工程问题，接下来会继续讲到。

2.2 AI无法理解legacy code base。先不说能不能，来想象一下一个码工接手一个refactor屎山的任务后怎么办？实际上码工参考几个过期的文档后还是读不懂代码的细节，只能一点点改，反复线下线上测试，在oncall的痛苦中前行，基本上是这个行业里最屎的工作内容；或者干脆把理解中的关键业务拎出来用更好的语言、框架重写，performance review上也许算功绩，铲屎官们舒服一些。回过头再看AI coding工具，期待给一个prompt它就把代码完全读懂并refactor了，显然不切实际。目前coding agent还没成熟，但工程思路已经考虑到这些。用户得告诉agent怎么运行代码，让它一边验证一边改，需要试错的机会才能得到一个比较好的结果。听起来教agent干活像极了怎么ramp up一个新人。Claude Code初步标准化出一个claude.md (https://www.anthropic.com/engineering/c ... -practices)，未来肯定还会继续演进。

3. AI不知道我想要什么，所以一些需要personal preference的use case不如我自己干。一些personal preference在最牛逼的广告公司（狗脸两家）可以算是在LLM流行之前已经基本解决了的工程问题。大部分LLM工具目前做不到是因为产品是stateless的，用户个人数据不足，答案自然只能是训练数据中的平均偏好。在一幅画好不好看这种问题上，LLM的观点跟几乎所有个体都不同。既然personalization是已经解决的技术问题，本质就是搜集到每个人的行为数据，只要提供足够的context给LLM，它就能给出个性化的生成答案。目前一些产品引入了memory，通过之前的对话记录提供更aligned的答案。之后的工程问题gap肯定存在，比如怎么得到更多历史数据，这些东西狗脸等公司收集了一大堆，未来AI服务如何获取，就看资本家们如何勾兑了，不管怎么样，看起来是个只要理清商业利益分配就能解决的问题。

说了一大堆，绕回原题，尽管LLM的工作原理与人类大脑不是严格相等，但从目前的表现上看各方面表现（包括幻觉等错误）都是越来越接近于人类的。遇到AI还不能解决的问题，应该在下结论前先想明白是目前的LLM本身智能不够，还是训练数据不足，还是runtime输入context不够，还是与外界交互的基建未完成。只有第一个问题是没有明确解决方案的，短时间内纯智能确实无法再有大的突破。只要能正确地思考现在对AI应该有什么期待，很容易看到，AI的知识广度、推理能力和其它智力可以轻松吊打90%的人类，因为成本低、更容易scale up，解决一些工程方面的gaps后大规模替代智力方面的工作指日可待。码工们扪心自问，平时工作中多少是无脑copy pasta、ops，和为了证明在工作而搞的一些没有创造性的搬砖活动（大部分开会、niche产品idea、营造出提高了某个metric的假象）。这些AI替代起来轻轻松松，不能证明自己拥有难以复制的domain knowledge的人，只有下岗一条路。

你提到的这个两位数相加的例子很好说明LLM的局限。我专门在中国试过，二年级学生把两个50位数相加，毫无障碍，毕竟对一个懂加法的人来说，这和12+34=46没区别。
LLM处理这个就费劲了。在这个例子当中，你可以明确告诉他逐位处理。但它只是执行你的逐位相加的指令而已。
再给他俩数，它还是不懂。在现行LLM框架下，LLM不可能理解加法这个知识。当然你可以说这正是LLM相对knowledge-based system的进步。

fantasist 写了： 2025年 7月 9日 18:45 首先提一下之前发的帖子(站内帖子：对GenAI现状感兴趣的推荐一点资料)，推荐先听一下Hinton的访谈，他认为随着研究的深入，越来越觉得LLM的工作模式像人脑，而不是找出越来越多与人脑不同的地方。我作为传统ML转到LLM的从业者，对这段话深有同感。以前的ML技术，即使是最先进的大规模推荐系统，号称比你自己更了解你，也绝对不会带来这种感觉，但LLM完全不一样。

版上认为AI不行的观点，在我看来都是有问题的。排除那些什么人类有灵魂而AI没有，让华人搞AI是美帝统治阶级阴谋之类的呓语，不在讨论范围，有需求请自行去看精神科医生。正常的反对观点，其实可以归结为对AI有错误的期待。如果把AI看待成一颗人脑来进行要求，现在的很多能力不足的地方就可以深入地探讨，而不是直接抛出一个LLM不行的结论。分析一下几个主要的谬误：

1. AI不精确所以不能用。人脑也不是精确的，不管记忆、计算还是推理，都充满了随机性和错误，需要大量训练帮助提高某个task上的稳定性，而且最好还是学会用精确的工具去做。AI在替代人类worker的过程中，不需要一个比人类高的多的精确率。一个很简单的例子是让两个大数字相加，AI如果直接生成一个答案多半不对。但只要你要求它一位位数字加起来，给个sample ，它基本可以做对，是不是跟人类学生差不多？

2.1 AI生成的代码往往不对。一个很有趣的例子是如果引用的library有多个不同的版本，模型记忆中的API很可能与当前使用的版本不同，导致生成的代码不对。这个到底是模型本身不行，还是别的问题呢？我们可以先参考人类是怎么解决此类问题的。码工碰到lib版本跟记忆中对不上，导致写出来的代码编译不过运行不了，这种事其实是非常普遍的，没有人会因此骂码工是傻逼。此时码工会去找相应版本的doc读一下，找到正确的API后再重写；或者偷懒google一下别人是不是碰到过同样的错误，有什么解决方案，ctrl-C ctrl-V一下。完整的context （lib版本号）与外界知识库的交互access是必须的，否则不可能得到准确答案。这些东西属于agent方向的工程问题，接下来会继续讲到。

2.2 AI无法理解legacy code base。先不说能不能，来想象一下一个码工接手一个refactor屎山的任务后怎么办？实际上码工参考几个过期的文档后还是读不懂代码的细节，只能一点点改，反复线下线上测试，在oncall的痛苦中前行，基本上是这个行业里最屎的工作内容；或者干脆把理解中的关键业务拎出来用更好的语言、框架重写，performance review上也许算功绩，铲屎官们舒服一些。回过头再看AI coding工具，期待给一个prompt它就把代码完全读懂并refactor了，显然不切实际。目前coding agent还没成熟，但工程思路已经考虑到这些。用户得告诉agent怎么运行代码，让它一边验证一边改，需要试错的机会才能得到一个比较好的结果。听起来教agent干活像极了怎么ramp up一个新人。Claude Code初步标准化出一个claude.md (https://www.anthropic.com/engineering/c ... -practices)，未来肯定还会继续演进。

3. AI不知道我想要什么，所以一些需要personal preference的use case不如我自己干。一些personal preference在最牛逼的广告公司（狗脸两家）可以算是在LLM流行之前已经基本解决了的工程问题。大部分LLM工具目前做不到是因为产品是stateless的，用户个人数据不足，答案自然只能是训练数据中的平均偏好。在一幅画好不好看这种问题上，LLM的观点跟几乎所有个体都不同。既然personalization是已经解决的技术问题，本质就是搜集到每个人的行为数据，只要提供足够的context给LLM，它就能给出个性化的生成答案。目前一些产品引入了memory，通过之前的对话记录提供更aligned的答案。之后的工程问题gap肯定存在，比如怎么得到更多历史数据，这些东西狗脸等公司收集了一大堆，未来AI服务如何获取，就看资本家们如何勾兑了，不管怎么样，看起来是个只要理清商业利益分配就能解决的问题。

说了一大堆，绕回原题，尽管LLM的工作原理与人类大脑不是严格相等，但从目前的表现上看各方面表现（包括幻觉等错误）都是越来越接近于人类的。遇到AI还不能解决的问题，应该在下结论前先想明白是目前的LLM本身智能不够，还是训练数据不足，还是runtime输入context不够，还是与外界交互的基建未完成。只有第一个问题是没有明确解决方案的，短时间内纯智能确实无法再有大的突破。只要能正确地思考现在对AI应该有什么期待，很容易看到，AI的知识广度和各方面智轻松吊打90%的人类，因为成本低、更容易scale up，大规模替代智力方面的工作指日可待。码工们扪心自问，平时工作中多少是无脑copy pasta、ops，和为了证明在工作而搞的一些没有创造性的搬砖活动（大部分开会、niche产品idea、营造出提高了某个metric的假象）。这些AI替代起来轻轻松松，不能证明自己拥有难以复制的domain knowledge的人，只有下岗一条路。

justChat 写了： 2025年 7月 9日 19:13 你提到的这个两位数相加的例子很好说明LLM的局限。我专门在中国试过，二年级学生把两个50位数相加，毫无障碍，毕竟对一个懂加法的人来说，这和12+34=46没区别。
LLM处理这个就费劲了。在这个例子当中，你可以明确告诉他逐位处理。但它只是执行你的逐位相加的指令而已。
再给他俩数，它还是不懂。在现行LLM框架下，LLM不可能理解加法这个知识。当然你可以说这正是LLM相对knowledge-based system的进步。

你对LLM的了解还停留在两年前。如果我没记错的话，去年这个时候随便丢两个大数字给frontier LLM，它已经能轻松理解要做加法，根据训练数据的不同，会调用加法器或者按位计算。这正像人类学生一样，根据教育的不同，美国学生会找计算器按，中国学生会找纸手算按位相加。

fantasist 写了： 2025年 7月 9日 18:45 首先提一下之前发的帖子(站内帖子：对GenAI现状感兴趣的推荐一点资料)，推荐先听一下Hinton的访谈，他认为随着研究的深入，越来越觉得LLM的工作模式像人脑，而不是找出越来越多与人脑不同的地方。

人脑如何工作的，根本没人知道

早就说了，AI就是挂羊头卖狗肉，和人脑一点不像。却像个王八一样，非要死死咬住，说自己像人脑

大模型准确率大概90%，不能指望A G I，但是能做的东西很多
特别agent, 只要运算成本能优化节省下来，应用场景很多，取代不少低端工作，取代高级码公或者研发那是做梦，别想太多，我们53码公一点不慌，做做agent外围工作足矣，都不用去接触model

lonelyarcher 写了： 2025年 7月 9日 20:10 大模型准确率大概90%，不能指望A G I，但是能做的东西很多
特别agent, 只要运算成本能优化节省下来，应用场景很多，取代不少低端工作，取代高级码公或者研发那是做梦，别想太多，我们53码公一点不慌，做做agent外围工作足矣，都不用去接触model

现在的模型架构能不能拼凑出一个初级的AGI不好说，因为配套的infra都没建全。现在agent发展得如火如荼，short term challenge都在infra上。multi turn conversation和外部tool use带来的一系列training infra scaling challenges，以及有组织地保存个人记忆，建立标准化tool use API（现在最火的词叫MCP但其实它不见得是最终标准，叫什么也不重要），和继续降低强力模型的inference cost等，明年这时候再看可能许多问题已经解决了。

两个月前我有美元200刀的 gpt pro的时候，当时最先进的o3 pro不会你说的这个“调用加法器或者按位计算”
现在我没pro了，用o3试了一下，它还是不会。
你说哪个frontier LLM会“调用加法器或者按位计算”，我试试

update: 好像deepseek有先右对齐，然后逐位相加，进位的概念。但貌似还不是小学生那种方式，而且折腾白天还是搞错了。

fantasist 写了： 2025年 7月 9日 19:26 你对LLM的了解还停留在两年前。如果我没记错的话，去年这个时候随便丢两个大数字给frontier LLM，它已经能轻松理解要做加法，根据训练数据的不同，会调用加法器或者按位计算。这正像人类学生一样，根据教育的不同，美国学生会找计算器按，中国学生会找纸手算按位相加。

justChat 写了： 2025年 7月 9日 21:40 两个月前我有美元200刀的 gpt pro的时候，当时最先进的o3 pro不会你说的这个“调用加法器或者按位计算”
现在我没pro了，用o3试了一下，它还是不会。
你说哪个frontier LLM会“调用加法器或者按位计算”，我试试

update: 好像deepseek有先右对齐，然后逐位相加，进位的概念。但貌似还不是小学生那种方式，而且折腾白天还是搞错了。

pplx看起来是对的

Chatgpt手机版，应该用的是4o，看起来也是正确调用计算器后秒出答案。

justChat 写了： 2025年 7月 9日 19:13 你提到的这个两位数相加的例子很好说明LLM的局限。我专门在中国试过，二年级学生把两个50位数相加，毫无障碍，毕竟对一个懂加法的人来说，这和12+34=46没区别。
LLM处理这个就费劲了。在这个例子当中，你可以明确告诉他逐位处理。但它只是执行你的逐位相加的指令而已。
再给他俩数，它还是不懂。在现行LLM框架下，LLM不可能理解加法这个知识。当然你可以说这正是LLM相对knowledge-based system的进步。

是用脑子口算吗？还是用纸笔啊？AI给了纸笔或者类似的东西吗？

Chatgpt 到现在还是搞不清。9.11和9.9谁大的问题

Fnhdx 写了： 2025年 7月 10日 12:40 Chatgpt 到现在还是搞不清。9.11和9.9谁大的问题

这个问题业界早就研究过了。x.y如果按书籍的章节或者软件版本号来理解，小数点后11是比9大的。你只要给模型一点context而不是问一个纯粹的ambiguous question，能轻松得到正确的答案。

谁评论一下Grok 4？

copilot接手一个小屎堆(一个一两百行的蟒蛇代码)，让它来简化一下，结果它直接把两个比较复杂的函数删了，这事就算刚入门的码工也做不出来。

fantasist 写了： 2025年 7月 9日 18:45 2.2 AI无法理解legacy code base。先不说能不能，来想象一下一个码工接手一个refactor屎山的任务后怎么办？

Havana 写了： 2025年 7月 10日 22:45 copilot接手一个小屎堆(一个一两百行的蟒蛇代码)，让它来简化一下，结果它直接把两个比较复杂的函数删了，这事就算刚入门的码工也做不出来。

Copilot不行，你去试试cursor

下载试了一下，用的免费版。找了一个土堆(不算屎山因为非常简单，也不到100行)让它简化。

比copilot强点，没有那么明显的删函数定义的错误，但是引入了一个数据接口的错误，我觉得这个更危险。

而且还发现一个有趣的事情，每次我让它解释某一处的改动，它就道歉，恢复原样，再给出一堆理由为什么最初的版本更好。

mrmaja 写了： 2025年 7月 11日 18:37 Copilot不行，你去试试cursor

新未名空间

对AI应有的期待

#1 对AI应有的期待

#2 Re: 对AI应有的期待

#3 Re: 对AI应有的期待

#4 Re: 对AI应有的期待

#5 Re: 对AI应有的期待

#6 Re: 对AI应有的期待

#7 Re: 对AI应有的期待

#8 Re: 对AI应有的期待

#9 Re: 对AI应有的期待

#10 Re: 对AI应有的期待

#11 Re: 对AI应有的期待

#12 Re: 对AI应有的期待

#13 Re: 对AI应有的期待

#14 Re: 对AI应有的期待

#15 Re: 对AI应有的期待

#16 Re: 对AI应有的期待