
首页

归档

关于
简体中文
  • 简体中文
  • English
LLM强化学习后训练系列(二)-- RLHF

LLM强化学习后训练系列(二)-- RLHF

文章目录

2026 04-23

本文是LLM强化学习后训练系列的第二篇,主要介绍GPT所使用的RLHF(Reinforcement Learning with Human Feedback)方法。RLHF是一种结合了人类反馈的强化学习方法,旨在提升LLM在特定任务上的表现。

本文作者:ShqWW

本文链接:http://shqww.github.io/2026/04/23/LLM%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%90%8E%E8%AE%AD%E7%BB%83%E7%B3%BB%E5%88%97(%E4%BA%8C%EF%BC%89/

本文标题:「LLM强化学习后训练系列(二)-- RLHF」

本文发布时间:2026-04-23 00:00:00

本文更新时间:2026-04-23 00:00:00

本文版权:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

留言 0 阅读量 机器学习
  • LLM
  • 强化学习
  • 机器学习
LLM强化学习后训练系列(一)-- 前置知识
后一篇

LLM强化学习后训练系列(一)-- 前置知识

说些什么吧!

waline
2024-2026 ShqWW
基于 Hexo  Theme.Reimu

文章目录

ShqWW
ShqWW
文章
8
分类
3
标签
10

首页

归档

关于