<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>MIMI的博客</title>
    <link>https://shqww.github.io/</link>
    <description>Recent content from MIMI的博客</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    
    <managingEditor>haoruw@outlook.com (MIMI)</managingEditor>
    <webMaster>haoruw@outlook.com (MIMI)</webMaster>
    
    <copyright>本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！</copyright>
    
    <lastBuildDate>Thu, 30 Apr 2026 00:00:00 +0000</lastBuildDate>
    
    
    <atom:link href="https://shqww.github.io/index.xml" rel="self" type="application/rss&#43;xml" />
    

    
    

    <item>
      <title>LLM后训练(五)--GRPO和DPO</title>
      <link>https://shqww.github.io/post/llmpost%E4%BA%94/</link>
      <pubDate>Thu, 30 Apr 2026 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/llmpost%E4%BA%94/</guid>
      <description>
        <![CDATA[<h1>LLM后训练(五)--GRPO和DPO</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          <p>本文是LLM后训练的第五篇，介绍了两种基于LLM强化学习的后训练方法：GRPO（Generalized Reward Policy Optimization）和DPO（Direct Preference Optimization）。</p>
        
        <hr><p>本文2026-04-30首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2026-04-30</p>]]>
      </description>
      
        <category>LLM Post Training</category>
      
    </item>
    
    

    <item>
      <title>LLM后训练(四)--RLHF-PPO</title>
      <link>https://shqww.github.io/post/llmpost%E5%9B%9B/</link>
      <pubDate>Wed, 29 Apr 2026 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/llmpost%E5%9B%9B/</guid>
      <description>
        <![CDATA[<h1>LLM后训练(四)--RLHF-PPO</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          <p>本文是LLM后训练的第四篇，从这篇开始，会介绍LLM的后训练。而本篇章主要介绍基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）以及PPO算法在RLHF中如何应用。</p>
        
        <hr><p>本文2026-04-29首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2026-04-29</p>]]>
      </description>
      
        <category>LLM Post Training</category>
      
    </item>
    
    

    <item>
      <title>LLM后训练(三)--PPO算法</title>
      <link>https://shqww.github.io/post/llmpost%E4%B8%89/</link>
      <pubDate>Sun, 26 Apr 2026 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/llmpost%E4%B8%89/</guid>
      <description>
        <![CDATA[<h1>LLM后训练(三)--PPO算法</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          <!-- 本文是LLM后训练的第三篇，主要介绍GPT所使用的RLHF（Reinforcement Learning with Human Feedback）方法。RLHF是一种结合了人类反馈的强化学习方法，旨在提升LLM在特定任务上的表现。 -->
<p>本文是LLM后训练的第三篇，主要介绍近端策略优化（Proximal Policy Optimization，简称PPO）算法。PPO算法在LLM后训练中起到举足轻重的作用。PPO算法更像是一个强化学习技巧的集合体，其设计重点在于保证训练的稳定性。因此在介绍PPO算法之前，需要先了解其背后的一些基础背景。</p>
        
        <hr><p>本文2026-04-26首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2026-04-26</p>]]>
      </description>
      
        <category>LLM Post Training</category>
      
    </item>
    
    

    <item>
      <title>LLM后训练(二)--价值函数</title>
      <link>https://shqww.github.io/post/llmpost%E4%BA%8C/</link>
      <pubDate>Thu, 23 Apr 2026 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/llmpost%E4%BA%8C/</guid>
      <description>
        <![CDATA[<h1>LLM后训练(二)--价值函数</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          <p>本文是LLM后训练的第二篇，主要介绍强化学习中价值函数以及Advantage Actor-Critic模型(A2C)。</p>
<h2 id="奖励信号的构造方式">
<a class="header-anchor" href="#%e5%a5%96%e5%8a%b1%e4%bf%a1%e5%8f%b7%e7%9a%84%e6%9e%84%e9%80%a0%e6%96%b9%e5%bc%8f"></a>
奖励信号的构造方式
</h2><p>在LLM后训练（一）中，我们介绍了强化学习的基本概念和一些常用的算法，并介绍了最原始的奖励损失函数：</p>
        
        <hr><p>本文2026-04-23首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2026-04-23</p>]]>
      </description>
      
        <category>LLM Post Training</category>
      
    </item>
    
    

    <item>
      <title>LLM后训练(一)--强化学习</title>
      <link>https://shqww.github.io/post/llmpost%E4%B8%80/</link>
      <pubDate>Wed, 22 Apr 2026 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/llmpost%E4%B8%80/</guid>
      <description>
        <![CDATA[<h1>LLM后训练(一)--强化学习</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          <p>本为 LLM 强化学习后训练梳理与总结。其脉络沿着强化学习的基本概念、算法原理、改进策略、以及在大语言模型后训练中的应用展开。不会涵盖强化学习的所有内容，而是聚焦于与大语言模型后训练相关的部分。主要是理清大语言模型后训练中强化学习的核心逻辑和思路。</p>
        
        <hr><p>本文2026-04-22首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2026-04-22</p>]]>
      </description>
      
        <category>LLM Post Training</category>
      
    </item>
    
    

    <item>
      <title>主成分分析和线性回归对比</title>
      <link>https://shqww.github.io/post/pca_lr/</link>
      <pubDate>Thu, 28 Nov 2024 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/pca_lr/</guid>
      <description>
        <![CDATA[<h1>主成分分析和线性回归对比</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          对比二维空间下主成分分析和线性回归的优化目标和结果。
        
        <hr><p>本文2024-11-28首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2024-11-28</p>]]>
      </description>
      
        <category>Machine Learning</category>
      
    </item>
    
    

    <item>
      <title>扩散模型中的随机微分方程</title>
      <link>https://shqww.github.io/post/diffusion_model_sde/</link>
      <pubDate>Thu, 28 Nov 2024 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/diffusion_model_sde/</guid>
      <description>
        <![CDATA[<h1>扩散模型中的随机微分方程</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          对扩散模型中涉及的随机微分方程进行详细的数学分析和证明。
        
        <hr><p>本文2024-11-28首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2024-11-28</p>]]>
      </description>
      
        <category>Machine Learning</category>
      
    </item>
    
    

    <item>
      <title>Linux下配置zsh和oh my zsh</title>
      <link>https://shqww.github.io/post/zsh_oh-my-zsh/</link>
      <pubDate>Thu, 28 Nov 2024 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/zsh_oh-my-zsh/</guid>
      <description>
        <![CDATA[<h1>Linux下配置zsh和oh my zsh</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          Linux下配置zsh和oh my zsh方法。
        
        <hr><p>本文2024-11-28首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2024-11-28</p>]]>
      </description>
      
        <category>Linux</category>
      
    </item>
    
    

    <item>
      <title>linux服务器使用ssh秘钥登录以及禁用ssh密码登录</title>
      <link>https://shqww.github.io/post/linux%E6%9C%8D%E5%8A%A1%E5%99%A8%E4%BD%BF%E7%94%A8ssh%E7%A7%98%E9%92%A5%E7%99%BB%E5%BD%95%E4%BB%A5%E5%8F%8A%E7%A6%81%E7%94%A8ssh%E5%AF%86%E7%A0%81%E7%99%BB%E5%BD%95/</link>
      <pubDate>Thu, 28 Nov 2024 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/linux%E6%9C%8D%E5%8A%A1%E5%99%A8%E4%BD%BF%E7%94%A8ssh%E7%A7%98%E9%92%A5%E7%99%BB%E5%BD%95%E4%BB%A5%E5%8F%8A%E7%A6%81%E7%94%A8ssh%E5%AF%86%E7%A0%81%E7%99%BB%E5%BD%95/</guid>
      <description>
        <![CDATA[<h1>linux服务器使用ssh秘钥登录以及禁用ssh密码登录</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          linux服务器使用ssh秘钥登录以及禁用ssh密码登录。
        
        <hr><p>本文2024-11-28首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2024-11-28</p>]]>
      </description>
      
        <category>Linux</category>
      
    </item>
    
    

    <item>
      <title>Docker 之代理配置</title>
      <link>https://shqww.github.io/post/docker_proxy/</link>
      <pubDate>Thu, 28 Nov 2024 00:00:00 &#43;0000</pubDate>
      <author>haoruw@outlook.com (MIMI)</author>
      <guid>https://shqww.github.io/post/docker_proxy/</guid>
      <description>
        <![CDATA[<h1>Docker 之代理配置</h1><p>作者：MIMI（haoruw@outlook.com）</p>
        
          本文介绍docker使用过程中的各种代理配置。
        
        <hr><p>本文2024-11-28首发于<a href='https://shqww.github.io/'>MIMI的博客</a>，最后修改于2024-11-28</p>]]>
      </description>
      
        <category>Linux</category>
      
    </item>
    
  </channel>
</rss>
