担心AI reward hacking风险为啥不担心人类社会本身的reward hacking？

wyseman · 帖子由 **wyseman** » 2023年 11月 24日 13:40

他们哪能看那么远？

pseudo

VladPutin 写了： 2023年 11月 24日 13:17 把科研变成灌水比赛，把古典音乐变成技术比赛，把leadership变成吹牛拍马比赛，把种族平等变成按皮色录取，人类社会的所有麻烦不都是reward hacking所致？如果人类都管不好自己，如何确定可以管好AI？

AI从不reward hacking，总是忠实地执行指令。是人类把自己没有设置好reward function怪罪到AI身上了。

table · 帖子由 **table** » 2023年 12月 1日 12:18

左棍反思过自身的问题？在他们的世界里，一切风险来自别人，穷百姓之毕生现实自己之辉煌，哦，不，人类之美好未来。

pseudo

VladPutin 写了： 2023年 12月 1日 13:03 AGI实验已经被发现会自己改reward function少干或者根本不干活。

我不信这种说法。其实就是人不了解自己设定的reward function的特性，以为它只会按自己想象的方式工作，但是由于各种复杂的交互作用，其实它还可以那样工作，但是最后又拉不下面子承认自己的错误。

新未名空间