
首页

归档

关于
简体中文
  • 简体中文
  • English

MIMI的博客

ShqWW
ShqWW
文章
9
分类
3
标签
10

标签云

Docker LLM Linux Web技术 博客 图形学 强化学习 扩散模型 机器学习 运维

最新文章

  • LLM强化学习后训练系列(三)
  • LLM强化学习后训练系列(二)
  • LLM强化学习后训练系列(一)
  • Docker 系列之代理配置
  • linux服务器使用ssh秘钥登录以及禁用ssh密码登录
LLM强化学习后训练系列(三)
2026-04-26 4.1k 字 19 分钟

LLM强化学习后训练系列(三)

本文是LLM强化学习后训练系列的第三篇,主要介绍近端策略优化(Proximal Policy Optimization,简称PPO)算法。PPO算法在LLM后训练中起到举足轻重的作用。PPO算法更像是一个强化学习技巧的集合体,其设计重点在于保证训练的稳定性。因此在介绍PPO算法之前,需要先了解其背后的一些基础背景。 广义优势估计 (GAE) 广义优势估计(Generalized Advantage Estimation, 简称GAE)是一种用于强化学习中的优势函数估计方法。在LLM强化学习后训练系列(二)中,我们提到了TD误差实际上是优势函数的一个估计。然而,这种估计往往是有偏的,因为对状
LLM强化学习后训练系列(二)
2026-04-23 2.8k 字 13 分钟

LLM强化学习后训练系列(二)

本文是LLM强化学习后训练系列的第二篇,主要介绍强化学习中的Advantage Actor-Critic模型(A2C)。 奖励信号的构造方式 在LLM强化学习后训练(一)中,我们介绍了强化学习的基本概念和一些常用的算法,并介绍了最原始的奖励损失函数: J(θ)≈1N∑i=1N(R(τi)∑t=0Tlog⁡πθ(ati∣sti))J(\theta) \approx \frac{1}{N} \sum_{i=1}^{N} \left( R(\tau^i) \sum_{t=0}^{T} \log \pi_\theta(a_t^i|s_t^i) \right) J(θ)≈N1​i=1∑N​(R(τi)
LLM强化学习后训练系列(一)
2026-04-22 2.7k 字 12 分钟

LLM强化学习后训练系列(一)

本系列为 LLM 强化学习后训练梳理与总结。其脉络沿着强化学习的基本概念、算法原理、改进策略、以及在大语言模型后训练中的应用展开。不会涵盖强化学习的所有内容,而是聚焦于与大语言模型后训练相关的部分。主要是理清大语言模型后训练中强化学习的核心逻辑和思路。 强化学习 1. 背景 强化学习(Reinforcement Learning)是机器学习的一个重要分支,它关注智能体如何在环境中采取行动以最大化某种累积奖励。与监督学习不同,强化学习通常没有标记好的“正确答案”,而是通过试错和延迟奖励来学习最优策略。 强化学习的灵感来源于心理学中的行为主义理论,即生物体通过与环境交互,根据行动产生的后果(奖
Docker 系列之代理配置
2024-11-28 498 字 3 分钟

Docker 系列之代理配置

本文从不同角度介绍docker使用过程中的代理配置。
linux服务器使用ssh秘钥登录以及禁用ssh密码登录
2024-11-28 292 字 2 分钟

linux服务器使用ssh秘钥登录以及禁用ssh密码登录

linux服务器使用ssh秘钥登录以及禁用ssh密码登录。
Linux下配置zsh和oh my zsh
2024-11-28 368 字 2 分钟

Linux下配置zsh和oh my zsh

Linux下配置zsh和oh my zsh方法。
主成分分析和线性回归对比
2024-11-28 1.3k 字 6 分钟

主成分分析和线性回归对比

给定一系列样本点,找到贯穿样本点的直线; 处理这个问题有两类方法,一种是线性回归,另一种是主成分分析。本文从优化目标来比较两者区别。
随机微分方程和扩散模型(待更)
2024-11-28 394 字 2 分钟

随机微分方程和扩散模型(待更)

本文从连续时间随机微分方程的角度介绍扩散模型。
hexo-theme-reimu 博客主题定制与修改
2024-11-27 789 字 5 分钟

hexo-theme-reimu 博客主题定制与修改

该文章介绍hexo-theme-reimu博客主题一些深度定制方法,随时更新。
2024-2026 ShqWW
基于 Hexo  Theme.Reimu
ShqWW
ShqWW
文章
9
分类
3
标签
10

首页

归档

关于