担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
wyseman
著名点评
著名点评
帖子互动: 156
帖子: 3820
注册时间: 2022年 7月 21日 21:51

#2 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?

帖子 wyseman »

他们哪能看那么远?
头像
pseudo(small man)
论坛点评
论坛点评
pseudo 的博客
帖子互动: 151
帖子: 2725
注册时间: 2022年 7月 28日 10:04

#3 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?

帖子 pseudo(small man) »

VladPutin 写了: 2023年 11月 24日 13:17 把科研变成灌水比赛,把古典音乐变成技术比赛,把leadership变成吹牛拍马比赛,把种族平等变成按皮色录取,人类社会的所有麻烦不都是reward hacking所致?如果人类都管不好自己,如何确定可以管好AI?
AI从不reward hacking,总是忠实地执行指令。是人类把自己没有设置好reward function怪罪到AI身上了。
table
自助冻结自助冻结
帖子互动: 32
帖子: 367
注册时间: 2023年 7月 23日 15:08

#4 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?

帖子 table »

左棍反思过自身的问题?在他们的世界里,一切风险来自别人,穷百姓之毕生现实自己之辉煌,哦,不,人类之美好未来。
头像
pseudo(small man)
论坛点评
论坛点评
pseudo 的博客
帖子互动: 151
帖子: 2725
注册时间: 2022年 7月 28日 10:04

#8 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?

帖子 pseudo(small man) »

VladPutin 写了: 2023年 12月 1日 13:03 AGI实验已经被发现会自己改reward function少干或者根本不干活。
我不信这种说法。其实就是人不了解自己设定的reward function的特性,以为它只会按自己想象的方式工作,但是由于各种复杂的交互作用,其实它还可以那样工作,但是最后又拉不下面子承认自己的错误。
回复

回到 “STEM”