LLM后训练(五)--GRPO和DPO

2026 04-30

本文是LLM后训练的第五篇，介绍了两种基于LLM强化学习的后训练方法：GRPO（Generalized Reward Policy Optimization）和DPO（Direct Preference Optimization）。

说些什么吧！