什么是奖励预测偏差？

2026年4月4日 xzy 15

奖励预测偏差（Reward Prediction Error，简称RPE）是指大脑在某一时刻对即将到来的奖赏进行预估时，实际获得的奖赏与预期之间的差额，这一差额会触发多巴胺信号的快速波动，从而调节学习与决策过程。

1997 年，神经生理学家 Schultz 在灵长类动物的中脑多巴胺细胞中记录到，当奖励出现超出预期时，细胞放电显著上升；若奖励低于预期，则放电抑制。这一实验奠定了 RPE 作为强化学习信号的生理基础。

在赌博机前，玩家往往会在“差一点就中”的瞬间感到心跳加速，这正是大脑对正向预测误差的即时响应。相反，连续的空转会导致多巴胺水平下降，玩家的兴趣随之衰减。实验数据显示，短暂的正向偏差足以提升后续行为的选择概率，说明 RPE 不仅是奖赏的反馈，更是动机的驱动。

理解奖励预测偏差的运作机制，等于打开了一把解释“为何我们会为未实现的期待而焦虑、为突如其来的惊喜而欣喜”的钥匙。无论是神经科学实验室的电极记录，还是日常生活中手机推送的闪光提示，都在悄然演绎着同一套信号更新的剧本。

作者：xzy

链接：https://www.xs91.com/thread/reward-prediction-error-explained

文章版权归作者所有，未经允许请勿转载。

这个人很懒，什么都没有留下。

少

多

作者好文作者发言