本文是LLM强化学习后训练系列的第二篇,主要介绍GPT所使用的RLHF(Reinforcement Learning with Human Feedback)方法。RLHF是一种结合了人类反馈的强化学习方法,旨在提升LLM在特定任务上的表现。
本系列为 LLM 强化学习后训练梳理与总结。 强化学习 1. 背景 强化学习(Reinforcement Learning)是机器学习的一个重要分支,它关注智能体如何在环境中采取行动以最大化某种累积奖励。与监督学习不同,强化学习通常没有标记好的“正确答案”,而是通过试错和延迟奖励来学习最优策略。 强化学习的灵感来源于心理学中的行为主义理论,即生物体通过与环境交互,根据行动产生的后果(奖励或惩罚)来调整自身的行为。这种学习范式使得智能体能够在未知且动态的环境中进行决策,被广泛应用于机器人控制、游戏博弈、自动驾驶和推荐系统等领域。 强化学习的分类如下图所示: (注:上图来源于,分类不一定准确