
首页

归档

关于
简体中文
  • 简体中文
  • English

分类

LLM后训练

ShqWW
ShqWW
文章
11
分类
4
标签
10

标签云

Docker LLM Linux Web技术 博客 图形学 强化学习 扩散模型 机器学习 运维

最新文章

  • LLM后训练(五)--GRPO和DPO
  • LLM后训练(四)--RLHF-PPO
  • LLM后训练(三)--PPO算法
  • LLM后训练(二)--价值函数
  • LLM后训练(一)--强化学习
2026
  • 04-30
    LLM后训练(五)--GRPO和DPO
  • 04-29
    LLM后训练(四)--RLHF-PPO
  • 04-26
    LLM后训练(三)--PPO算法
  • 04-23
    LLM后训练(二)--价值函数
  • 04-22
    LLM后训练(一)--强化学习
2024-2026 ShqWW
基于 Hexo  Theme.Reimu
ShqWW
ShqWW
文章
11
分类
4
标签
10

首页

归档

关于