此帖转自 Caravel 在 军事天地(Military) 的帖子:LLM真的能推理么?
AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。
他们是怎么得出上述结论的呢?我们先来看一个例子。
假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?
显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。
但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?
题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。
GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。
这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。
(转载)LLM真的能推理么?
版主: verdelite, TheMatrix
#2 Re: (转载)LLM真的能推理么?
狗屁通的人已经出来辟谣了:他们说,这是因为测试中LLM一直把题目当成“聊天”,chi-chat,也即LLM的脑筋没有往数学上想。。。 他们建议下次测试前先念咒“This is a mathematical test...”,据说这样能显著提高LLM的解题水平。。。
反正这个LLM怎么看怎么是个鹦鹉学舌,不像是真正理解各种概念。。。
反正这个LLM怎么看怎么是个鹦鹉学舌,不像是真正理解各种概念。。。
跳出三界外,不在五行中
-
- 论坛元老
Caravel 的博客 - 帖子互动: 689
- 帖子: 27221
- 注册时间: 2022年 7月 24日 17:21
#3 Re: (转载)LLM真的能推理么?
这其实就是强词夺理,寄希望于拼命灌输给LLMmacarthur 写了: 2024年 10月 14日 20:19 狗屁通的人已经出来辟谣了:他们说,这是因为测试中LLM一直把题目当成“聊天”,chi-chat,也即LLM的脑筋没有往数学上想。。。 他们建议下次测试前先念咒“This is a mathematical test...”,据说这样能显著提高LLM的解题水平。。。
反正这个LLM怎么看怎么是个鹦鹉学舌,不像是真正理解各种概念。。。
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 277
- 帖子: 13638
- 注册时间: 2022年 7月 26日 00:35
#4 Re: (转载)LLM真的能推理么?
有点像那个笑话:坐汽车,第一站上了几个人,第二站上了几个人,…最后问总共坐了几站。Caravel 写了: 2024年 10月 14日 19:51 此帖转自 Caravel 在 军事天地(Military) 的帖子:LLM真的能推理么?
AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。
这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。
他们是怎么得出上述结论的呢?我们先来看一个例子。
假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?
显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。
但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?
题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。
GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。
这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。