2026 04-30 本文是LLM后训练的第五篇,介绍了两种基于LLM强化学习的后训练方法:GRPO(Generalized Reward Policy Optimization)和DPO(Direct Preference Optimization)。 后一篇 LLM后训练(四)--RLHF-PPO
说些什么吧!