首页
归档
关于
简体中文
简体中文
English
分类
LLM后训练
2026
04-30
LLM后训练(五)--GRPO和DPO
04-29
LLM后训练(四)--RLHF-PPO
04-26
LLM后训练(三)--PPO算法
04-23
LLM后训练(二)--价值函数
04-22
LLM后训练(一)--强化学习
ShqWW
文章
11
分类
4
标签
10
首页
归档
关于