本文章没有找到对应的语言版本

简体中文

简体中文
English

目录

LLM Post Training

MIMI

文章

12

标签云

Blog Diffusion Models Docker Graphics Linux LLM Machine Learning Reinforcement Learning Web Tech

最新文章

LLM后训练(五)--GRPO和DPO
LLM后训练(四)--RLHF-PPO
LLM后训练(三)--PPO算法
LLM后训练(二)--价值函数
LLM后训练(一)--强化学习

Blog

Diffusion Models

Docker

Graphics

Linux

LLM

Machine Learning

Reinforcement Learning

Web Tech

Blog

Linux

LLM Post Training

Machine Learning

2026

2026-04
LLM后训练(五)--GRPO和DPO
2026-04
LLM后训练(四)--RLHF-PPO
2026-04
LLM后训练(三)--PPO算法
2026-04
LLM后训练(二)--价值函数
2026-04
LLM后训练(一)--强化学习

1

2024-2026MIMI

MIMI

文章

12



首页



归档



关于