
首页

归档

关于
简体中文
  • 简体中文
  • English
LLM后训练(五)--GRPO和DPO

LLM后训练(五)--GRPO和DPO

文章目录

2026 04-30

本文是LLM后训练的第五篇,介绍了两种基于LLM强化学习的后训练方法:GRPO(Generalized Reward Policy Optimization)和DPO(Direct Preference Optimization)。

本文作者:ShqWW

本文链接:http://shqww.github.io/2026/04/30/LLM%E5%90%8E%E8%AE%AD%E7%BB%83(%E4%BA%94)/

本文标题:「LLM后训练(五)--GRPO和DPO」

本文发布时间:2026-04-30 00:00:00

本文更新时间:2026-04-30 00:00:00

本文版权:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

留言 0 阅读量 LLM后训练
  • LLM
  • 强化学习
LLM后训练(四)--RLHF-PPO
后一篇

LLM后训练(四)--RLHF-PPO

说些什么吧!

waline
2024-2026 ShqWW
基于 Hexo  Theme.Reimu

文章目录

ShqWW
ShqWW
文章
11
分类
4
标签
10

首页

归档

关于