#2 Re: 担心AI reward hacking风险为啥不担心人类社会本身的reward hacking?
发表于 : 2023年 11月 24日 13:40
他们哪能看那么远?
AI从不reward hacking,总是忠实地执行指令。是人类把自己没有设置好reward function怪罪到AI身上了。VladPutin 写了: 2023年 11月 24日 13:17 把科研变成灌水比赛,把古典音乐变成技术比赛,把leadership变成吹牛拍马比赛,把种族平等变成按皮色录取,人类社会的所有麻烦不都是reward hacking所致?如果人类都管不好自己,如何确定可以管好AI?
我不信这种说法。其实就是人不了解自己设定的reward function的特性,以为它只会按自己想象的方式工作,但是由于各种复杂的交互作用,其实它还可以那样工作,但是最后又拉不下面子承认自己的错误。