LLM强化学习后训练系列(二）-- RLHF

2026 04-23

本文是LLM强化学习后训练系列的第二篇，主要介绍GPT所使用的RLHF（Reinforcement Learning with Human Feedback）方法。RLHF是一种结合了人类反馈的强化学习方法，旨在提升LLM在特定任务上的表现。

说些什么吧！