本系列为LLM强化学习后训练梳理与总结.
强化学习讨论的是一个智能体如何在复杂不确定的环境中去极大化它能获得的奖励。通过感知所处环境的状态对动作的反应,来指导更好的动作,从而获得最大的收益,这被称为在交互中学习,这样的学习方法就被称作强化学习。
Reinforcement learning is learning what to do—how to map situations to actions——so as to maximize a numerical reward signal. ----- Richard S. Sutton and Andrew G. Barto 《Reinfor