(转载)LLM真的能推理么?

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 689
帖子: 27219
注册时间: 2022年 7月 24日 17:21

#1 (转载)LLM真的能推理么?

帖子 Caravel楼主 »

此帖转自 Caravel 在 军事天地(Military) 的帖子:LLM真的能推理么?

AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。

假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?

显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。


但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?

题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。
头像
macarthur(麦客)
论坛点评
论坛点评
帖子互动: 499
帖子: 2321
注册时间: 2024年 1月 11日 09:02

#2 Re: (转载)LLM真的能推理么?

帖子 macarthur(麦客) »

狗屁通的人已经出来辟谣了:他们说,这是因为测试中LLM一直把题目当成“聊天”,chi-chat,也即LLM的脑筋没有往数学上想。。。 他们建议下次测试前先念咒“This is a mathematical test...”,据说这样能显著提高LLM的解题水平。。。

反正这个LLM怎么看怎么是个鹦鹉学舌,不像是真正理解各种概念。。。
跳出三界外,不在五行中
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 689
帖子: 27219
注册时间: 2022年 7月 24日 17:21

#3 Re: (转载)LLM真的能推理么?

帖子 Caravel楼主 »

macarthur 写了: 2024年 10月 14日 20:19 狗屁通的人已经出来辟谣了:他们说,这是因为测试中LLM一直把题目当成“聊天”,chi-chat,也即LLM的脑筋没有往数学上想。。。 他们建议下次测试前先念咒“This is a mathematical test...”,据说这样能显著提高LLM的解题水平。。。

反正这个LLM怎么看怎么是个鹦鹉学舌,不像是真正理解各种概念。。。
这其实就是强词夺理,寄希望于拼命灌输给LLM
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 277
帖子: 13638
注册时间: 2022年 7月 26日 00:35

#4 Re: (转载)LLM真的能推理么?

帖子 TheMatrix »

Caravel 写了: 2024年 10月 14日 19:51 此帖转自 Caravel 在 军事天地(Military) 的帖子:LLM真的能推理么?

AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。

假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?

显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。


但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?

题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。
有点像那个笑话:坐汽车,第一站上了几个人,第二站上了几个人,…最后问总共坐了几站。
回复

回到 “STEM”