LLM后训练(二)--价值函数

2026 04-23

本文是LLM后训练的第二篇，主要介绍强化学习中价值函数以及Advantage Actor-Critic模型(A2C)。

奖励信号的构造方式

在LLM后训练（一）中，我们介绍了强化学习的基本概念和一些常用的算法，并介绍了最原始的奖励损失函数：

J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( R(\tau^i) \sum_{t=0}^{T} \log \pi_\theta(a_t^i|s_t^i) \right)

这个函数对整条轨迹使用统一的奖励，因此存在一些问题。那么，有没有对每一步动作使用不同奖励的算法呢？假设这种奖励存在，那么奖励信号就可以写入第二个求和符号中：

J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( \sum_{t=0}^{T} \varPsi_t^i \log \pi_\theta(a_t^i|s_t^i) \right)

为了方便表示，假设只针对一条采样轨迹进行分析，忽略下标 $i$ ，将 $\varPsi_t^i$ 简写为 $\varPsi_t$ 。在不同算法中， $\varPsi_t$ 的定义不同。在介绍A2C算法之前，先总结一下 $\varPsi_t$ 的几种常见构造方式：

$\varPsi_t = \sum_{t=0}^{T}{r_t}$

这种方式等价于最原始的奖励损失函数。

$\varPsi_t =\sum_{t'=t}^{T}{r_{t'}}$

这种方式考虑了从 $t$ 时刻开始的奖励。

$\varPsi_t =\sum_{t'=t}^{T}{r_{t'}} - b(s_t)$

这种方式引入了基线函数 $b(s_t)$ ，用来降低奖励的方差。因为如果只考虑绝对奖励，可能会出现每个奖励都很大或者都很小的情况，从而导致梯度更新不稳定。引入基线后，奖励就变成了某个动作相对于平均水平的“优势”，而训练模型的最终目标正是在候选动作中选择更优动作。 $b(s_t)$ 的定义有很多，这里暂时将其视为采取所有动作时的平均奖励。

$\varPsi_t = Q(s_t, a_t)$

这种方式使用动作价值函数作为奖励信号。
它表示在状态 $s_t$ 和该步对应动作 $a_t$ 的条件下，针对策略 $\pi$ 未来奖励的期望值。由于这里使用的是未来奖励的期望值而非一个具体奖励的采样值，因此它可以看作是一个更稳定的奖励信号。
需要注意的是，动作价值函数中的条件期望是针对特定策略 $\pi$ 定义的。在训练过程中，策略可能会随着参数更新而改变（也可能使用固定采样策略，此时不需要考虑策略改变的问题）。

$\varPsi_t = A(s_t, a_t)$

这种方式使用优势函数作为奖励信号。优势函数的定义为：

A(s_t, a_t) = Q(s_t, a_t) - V(s_t)

它表示在状态

s_t

和动作

a_t

条件下，动作价值函数与状态价值函数的差值。状态价值函数的定义为

V(s_t) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t'=t}^{T} \gamma^{t'-t} r_{t'} \mid s_t \right]

它表示在状态

s_t

的条件下，针对策略

\pi

未来奖励的期望值。最终，优势函数表示在状态

s_t

和动作

a_t

的条件下，动作相对于平均水平的“优势”，它可以看作是一个更稳定的奖励信号。

$\varPsi_t = \delta_t$

这种方式使用TD误差作为奖励信号。TD误差的定义为

\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)

TD误差表示奖励观测值与未来奖励折现值之和，再减去当前状态价值函数值的差值。（它的本质是贝尔曼方程，即当前价值等于即时奖励加上下一个状态折现价值的期望。）

动作价值函数、状态价值函数和TD误差

在上一部分，我们介绍了几种奖励信号的构造方式。本部分着重分析状态价值函数、动作价值函数和TD误差的性质与联系。

动作价值函数的性质

根据动作价值函数和状态价值函数的定义，可以推导：

\begin{align} Q(s_t, a_t) &= \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t'=t}^{T} \gamma^{t'-t} r_{t'} \mid s_t, a_t \right] \nonumber \\ &= \mathbb{E}_{\tau \sim \pi} \left[ r_t + \gamma \sum_{t'=t+1}^{T} \gamma^{t'-(t+1)} r_{t'} \mid s_t, a_t \right] \nonumber \\ &= \mathbb{E} \left[r_t\mid s_t, a_t \right] + \mathbb{E}_{\tau \sim \pi} \left[ \gamma\sum_{t'=t+1}^{T} \gamma^{t'-(t+1)} r_{t'} \mid s_t, a_t \right] \nonumber \\ &= \mathbb{E} \left[r_t\mid s_t, a_t \right] + \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[ \gamma\mathbb{E}_{\tau \sim \pi} \left[ \sum_{t'=t+1}^{T} \gamma^{t'-(t+1)} r_{t'} \mid s_{t+1} \right]\right] \nonumber \\ &= \mathbb{E} \left[r_t\mid s_t, a_t \right] + \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[\gamma V(s_{t+1}) \right] \nonumber \\ &= \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[ r_t + \gamma V(s_{t+1}) \right] \nonumber \end{align}

上式给出了状态价值函数到动作价值函数的一种变换关系。其中隐含了从 $t$ 到 $t+1$ 的递推关系，这种递推性质在后文会反复用到。

状态价值函数的性质

根据状态价值函数的定义，可以推导：

\begin{align} V(s_t) &= \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t'=t}^{T} \gamma^{t'-t} r_{t'} \mid s_t \right] \nonumber \\ &= \mathbb{E}_{a_t \sim \pi(\cdot|s_t)} \left[ \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t'=t}^{T} \gamma^{t'-t} r_{t'} \mid s_t, a_t\right] \right] \nonumber \\ &= \mathbb{E}_{a_t \sim \pi(\cdot|s_t)} \left[ Q(s_t, a_t) \right] \nonumber \end{align}

上式给出了动作价值函数到状态价值函数的一种变换关系。

TD误差

根据优势函数的定义，我们可以推导：

\begin{align} A(s_t, a_t) &= Q(s_t, a_t) - V(s_t) \nonumber \\ &= \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[ r_t + \gamma V(s_{t+1}) \right] - V(s_t) \nonumber \\ &= \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[ r_t + \gamma V(s_{t+1}) - V(s_t) \right] \nonumber \\ &= \mathbb{E}_{s_{t+1} \sim P(\cdot|s_t,a_t)} \left[ \delta_t \right] \nonumber \end{align}

TD误差取期望后等于优势函数，因此在 $V_{\pi}$ 准确的前提下，TD误差可以看作优势函数的无偏估计。然而在实际训练过程中， $V_{\pi}$ 通常是近似函数，甚至本身也是需要训练的模型，因此TD误差可能存在一定偏差。另外，这里的TD误差只使用一步观测值。实际上也可以使用多步观测值来构造TD误差，这样可以在一定程度上减小偏差，但同时会增大方差。这里默认只使用一步观测值的TD误差，也称为TD(0)误差。

Advantage Actor-Critic模型

上一部分介绍了几种奖励信号的构造方式，并分析了动作价值函数、状态价值函数和TD误差的性质与联系。本部分介绍Actor-Critic模型。相比于原版Actor-Critic模型使用动作价值函数 $Q$ 作为奖励信号，这里使用TD误差（本质上是优势函数）作为奖励信号的模型被称为Advantage Actor-Critic模型（A2C）。如果通过多次采样实际样本，再统计动作价值函数和状态价值函数以得到优势函数，往往会导致优势函数方差较大。而TD误差只使用一步观测值 $r_t$ 以及当前和下一步状态价值函数的估计值 $V_{\phi}(s_t)$ 和 $V_{\phi}(s_{t+1})$ ，因此其方差相对较小，可以加速训练过程。然而，由于TD误差往往是有偏估计（因为估计值未必准确），A2C模型引入了一个额外的状态价值函数模型，即Critic模型，来估计状态价值函数，并与Actor模型（即策略模型）交替优化缓解估计不准的问题。

Actor优化目标

Actor模型的优化目标是最大化下式：

J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( \sum_{t=0}^{T} (r_t^i + \gamma V_{\phi}(s_{t+1}^i) - V_{\phi}(s_t^i)) \log \pi_\theta(a_t^i|s_t^i) \right)

在实际优化过程中，可以对 $T$ 中的时间步进行各种采样（包括单步采样），而不需要一次性优化整条轨迹的奖励信号，这样可以加速训练过程。

Critic优化目标

Critic模型的优化目标是最小化下式：

\mathcal{L}(\phi) = \mathbb{E}\left[ (r_t + \gamma V_{\phi}(s_{t+1}) - V_{\phi}(s_t))^2 \right] \nonumber

其目标是最小化TD误差平方，因此可以看作一个回归问题，目标是让 $V_{\phi}$ 能够更准确地估计状态价值函数。

下图展示了A2C模型的简化优化流程（使用梯度上升最大化目标）：

图片描述