本文是LLM强化学习后训练系列的第三篇,主要介绍近端策略优化(Proximal Policy Optimization,简称PPO)算法。PPO算法在LLM后训练中起到举足轻重的作用。PPO算法更像是一个强化学习技巧的集合体,其设计重点在于保证训练的稳定性。因此在介绍PPO算法之前,需要先了解其背后的一些基础背景。 广义优势估计 (GAE) 广义优势估计(Generalized Advantage Estimation, 简称GAE)是一种用于强化学习中的优势函数估计方法。在LLM强化学习后训练系列(二)中,我们提到了TD误差实际上是优势函数的一个估计。然而,这种估计往往是有偏的,因为对状
本文是LLM强化学习后训练系列的第二篇,主要介绍强化学习中的Advantage Actor-Critic模型(A2C)。 奖励信号的构造方式 在LLM强化学习后训练(一)中,我们介绍了强化学习的基本概念和一些常用的算法,并介绍了最原始的奖励损失函数: J(θ)≈1N∑i=1N(R(τi)∑t=0Tlogπθ(ati∣sti))J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( R(\tau^i) \sum_{t=0}^{T} \log \pi_\theta(a_t^i|s_t^i) \right) J(θ)≈N1i=1∑N(R(τi)
本系列为 LLM 强化学习后训练梳理与总结。其脉络沿着强化学习的基本概念、算法原理、改进策略、以及在大语言模型后训练中的应用展开。不会涵盖强化学习的所有内容,而是聚焦于与大语言模型后训练相关的部分。主要是理清大语言模型后训练中强化学习的核心逻辑和思路。 强化学习 1. 背景 强化学习(Reinforcement Learning)是机器学习的一个重要分支,它关注智能体如何在环境中采取行动以最大化某种累积奖励。与监督学习不同,强化学习通常没有标记好的“正确答案”,而是通过试错和延迟奖励来学习最优策略。 强化学习的灵感来源于心理学中的行为主义理论,即生物体通过与环境交互,根据行动产生的后果(奖