
首页

归档

关于
简体中文
  • 简体中文
  • English

MIMI的博客

ShqWW
ShqWW
文章
11
分类
4
标签
10

标签云

Docker LLM Linux Web技术 博客 图形学 强化学习 扩散模型 机器学习 运维

最新文章

  • LLM后训练(五)--GRPO和DPO
  • LLM后训练(四)--RLHF-PPO
  • LLM后训练(三)--PPO算法
  • LLM后训练(二)--价值函数
  • LLM后训练(一)--强化学习
LLM后训练

LLM后训练

5 篇文章

博客

博客

1 篇文章

LLM后训练(五)--GRPO和DPO
2026-04-30 39 字 1 分钟

LLM后训练(五)--GRPO和DPO

本文是LLM后训练的第五篇,介绍了两种基于LLM强化学习的后训练方法:GRPO(Generalized Reward Policy Optimization)和DPO(Direct Preference Optimization)。
LLM后训练(四)--RLHF-PPO
2026-04-29 1k 字 4 分钟

LLM后训练(四)--RLHF-PPO

本文是LLM后训练的第四篇,从这篇开始,会介绍LLM的后训练。而本篇章主要介绍基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)以及PPO算法在RLHF中如何应用。 LLM的训练阶段 在介绍RLHF之前,我们先回顾一下LLM的训练阶段。LLM的训练通常分为三个阶段: 预训练(Pre-training):在这个阶段,模型通过大量的文本数据进行训练,学习语言的基本结构和语义。训练完成后模型可以够生成连贯的文本,但可能缺乏特定任务以及指令遵从能力。 有监督微调(Supervised Fine-tuning, SFT):在这个
LLM后训练(三)--PPO算法
2026-04-26 4.1k 字 19 分钟

LLM后训练(三)--PPO算法

本文是LLM后训练的第三篇,主要介绍近端策略优化(Proximal Policy Optimization,简称PPO)算法。PPO算法在LLM后训练中起到举足轻重的作用。PPO算法更像是一个强化学习技巧的集合体,其设计重点在于保证训练的稳定性。因此在介绍PPO算法之前,需要先了解其背后的一些基础背景。 广义优势估计 (GAE) 广义优势估计(Generalized Advantage Estimation, 简称GAE)是一种用于强化学习中的优势函数估计方法。在LLM后训练(二)中,我们提到了TD误差实际上是优势函数的一个估计。然而,这种估计往往是有偏的,因为对状态值函数的估计可能不准确
LLM后训练(二)--价值函数
2026-04-23 2.8k 字 13 分钟

LLM后训练(二)--价值函数

本文是LLM后训练的第二篇,主要介绍强化学习中价值函数以及Advantage Actor-Critic模型(A2C)。 奖励信号的构造方式 在LLM后训练(一)中,我们介绍了强化学习的基本概念和一些常用的算法,并介绍了最原始的奖励损失函数: J(θ)≈1N∑i=1N(R(τi)∑t=0Tlog⁡πθ(ati∣sti))J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( R(\tau^i) \sum_{t=0}^{T} \log \pi_\theta(a_t^i|s_t^i) \right) J(θ)≈N1​i=1∑N​(R(τi)t=0∑T
LLM后训练(一)--强化学习
2026-04-22 2.7k 字 12 分钟

LLM后训练(一)--强化学习

本为 LLM 强化学习后训练梳理与总结。其脉络沿着强化学习的基本概念、算法原理、改进策略、以及在大语言模型后训练中的应用展开。不会涵盖强化学习的所有内容,而是聚焦于与大语言模型后训练相关的部分。主要是理清大语言模型后训练中强化学习的核心逻辑和思路。 强化学习 1. 背景 强化学习(Reinforcement Learning)是机器学习的一个重要分支,它关注智能体如何在环境中采取行动以最大化某种累积奖励。与监督学习不同,强化学习通常没有标记好的“正确答案”,而是通过试错和延迟奖励来学习最优策略。 强化学习的灵感来源于心理学中的行为主义理论,即生物体通过与环境交互,根据行动产生的后果(奖励或
Docker 之代理配置
2024-11-28 498 字 3 分钟

Docker 之代理配置

本文从不同角度介绍docker使用过程中的代理配置。
Linux下配置zsh和oh my zsh
2024-11-28 368 字 2 分钟

Linux下配置zsh和oh my zsh

Linux下配置zsh和oh my zsh方法。
linux服务器使用ssh秘钥登录以及禁用ssh密码登录
2024-11-28 292 字 2 分钟

linux服务器使用ssh秘钥登录以及禁用ssh密码登录

linux服务器使用ssh秘钥登录以及禁用ssh密码登录。
主成分分析和线性回归对比
2024-11-28 1.3k 字 6 分钟

主成分分析和线性回归对比

给定一样本点,找到贯穿样本点的直线; 处理这个问题有两类方法,一种是线性回归,另一种是主成分分析。本文从优化目标来比较两者区别。
随机微分方程和扩散模型(待更)
2024-11-28 394 字 2 分钟

随机微分方程和扩散模型(待更)

本文从连续时间随机微分方程的角度介绍扩散模型。
12下一页 »
2024-2026 ShqWW
基于 Hexo  Theme.Reimu
ShqWW
ShqWW
文章
11
分类
4
标签
10

首页

归档

关于