MIMI的博客

LLM Post Training

5 篇文章

Blog

2 篇文章

2026-04-302026-04-3092 字 1 分钟

LLM后训练(五)--GRPO和DPO

本文是LLM后训练的第五篇，介绍了两种基于LLM强化学习的后训练方法：GRPO（Generalized Reward Policy Optimization）和DPO（Direct Preference Optimization）。

2026-04-292026-04-292178 字 5 分钟

LLM后训练(四)--RLHF-PPO

本文是LLM后训练的第四篇，从这篇开始，会介绍LLM的后训练。而本篇章主要介绍基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）以及PPO算法在RLHF中如何应用。

2026-04-262026-04-264192 字 9 分钟

LLM后训练(三)--PPO算法

本文是LLM后训练的第三篇，主要介绍近端策略优化（Proximal Policy Optimization，简称PPO）算法。PPO算法在LLM后训练中起到举足轻重的作用。PPO算法更像是一个强化学习技巧的集合体，其设计重点在于保证训练的稳定性。因此在介绍PPO算法之前，需要先了解其背后的一些基础背景。

2026-04-232026-04-232367 字 5 分钟

LLM后训练(二)--价值函数

本文是LLM后训练的第二篇，主要介绍强化学习中价值函数以及Advantage Actor-Critic模型(A2C)。奖励信号的构造方式在LLM后训练（一）中，我们介绍了强化学习的基本概念和一些常用的算法，并介绍了最原始的奖励损失函数：

2026-04-222026-04-222697 字 6 分钟

LLM后训练(一)--强化学习

本为 LLM 强化学习后训练梳理与总结。其脉络沿着强化学习的基本概念、算法原理、改进策略、以及在大语言模型后训练中的应用展开。不会涵盖强化学习的所有内容，而是聚焦于与大语言模型后训练相关的部分。主要是理清大语言模型后训练中强化学习的核心逻辑和思路。

2024-11-282024-11-28431 字 1 分钟

Docker 之代理配置

本文介绍docker使用过程中的各种代理配置。

2024-11-282024-11-28350 字 1 分钟

linux服务器使用ssh秘钥登录以及禁用ssh密码登录

linux服务器使用ssh秘钥登录以及禁用ssh密码登录。

2024-11-282024-11-28442 字 1 分钟

Linux下配置zsh和oh my zsh

Linux下配置zsh和oh my zsh方法。

2024-11-282024-11-28518 字 2 分钟

扩散模型中的随机微分方程

对扩散模型中涉及的随机微分方程进行详细的数学分析和证明。

2024-11-282024-11-281012 字 3 分钟

主成分分析和线性回归对比

对比二维空间下主成分分析和线性回归的优化目标和结果。