担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?
版主: verdelite, TheMatrix
-
- 论坛点评
pseudo 的博客 - 帖子互动: 151
- 帖子: 2725
- 注册时间: 2022年 7月 28日 10:04
#3 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?
AI从不reward hacking,总是忠实地执行指令。是人类把自己没有设置好reward function怪罪到AI身上了。VladPutin 写了: 2023年 11月 24日 13:17 把科研变成灌水比赛,把古典音乐变成技术比赛,把leadership变成吹牛拍马比赛,把种族平等变成按皮色录取,人类社会的所有麻烦不都是reward hacking所致?如果人类都管不好自己,如何确定可以管好AI?
#4 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?
左棍反思过自身的问题?在他们的世界里,一切风险来自别人,穷百姓之毕生现实自己之辉煌,哦,不,人类之美好未来。
-
- 论坛点评
pseudo 的博客 - 帖子互动: 151
- 帖子: 2725
- 注册时间: 2022年 7月 28日 10:04
#8 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?
我不信这种说法。其实就是人不了解自己设定的reward function的特性,以为它只会按自己想象的方式工作,但是由于各种复杂的交互作用,其实它还可以那样工作,但是最后又拉不下面子承认自己的错误。