
首页

归档

关于
简体中文
  • 简体中文
  • English

MIMI的小窝

ShqWW
ShqWW
文章
8
分类
3
标签
10

标签云

Docker LLM Linux Web技术 博客 图形学 强化学习 扩散模型 机器学习 运维

最新文章

  • LLM强化学习后训练系列(二)-- RLHF
  • LLM强化学习后训练系列(一)-- 前置知识
  • Docker 系列之代理配置
  • Linux下配置zsh和oh my zsh
  • linux服务器使用ssh秘钥登录以及禁用ssh密码登录
LLM强化学习后训练系列(二)-- RLHF
2026-04-23 66 字 1 分钟

LLM强化学习后训练系列(二)-- RLHF

本文是LLM强化学习后训练系列的第二篇,主要介绍GPT所使用的RLHF(Reinforcement Learning with Human Feedback)方法。RLHF是一种结合了人类反馈的强化学习方法,旨在提升LLM在特定任务上的表现。
LLM强化学习后训练系列(一)-- 前置知识
2026-04-22 2.9k 字 12 分钟

LLM强化学习后训练系列(一)-- 前置知识

本系列为 LLM 强化学习后训练梳理与总结。 强化学习 1. 背景 强化学习(Reinforcement Learning)是机器学习的一个重要分支,它关注智能体如何在环境中采取行动以最大化某种累积奖励。与监督学习不同,强化学习通常没有标记好的“正确答案”,而是通过试错和延迟奖励来学习最优策略。 强化学习的灵感来源于心理学中的行为主义理论,即生物体通过与环境交互,根据行动产生的后果(奖励或惩罚)来调整自身的行为。这种学习范式使得智能体能够在未知且动态的环境中进行决策,被广泛应用于机器人控制、游戏博弈、自动驾驶和推荐系统等领域。 强化学习的分类如下图所示: (注:上图来源于,分类不一定准确
Docker 系列之代理配置
2024-11-28 498 字 3 分钟

Docker 系列之代理配置

本文从不同角度介绍docker使用过程中的代理配置。
Linux下配置zsh和oh my zsh
2024-11-28 368 字 2 分钟

Linux下配置zsh和oh my zsh

Linux下配置zsh和oh my zsh方法。
linux服务器使用ssh秘钥登录以及禁用ssh密码登录
2024-11-28 292 字 2 分钟

linux服务器使用ssh秘钥登录以及禁用ssh密码登录

linux服务器使用ssh秘钥登录以及禁用ssh密码登录。
hexo-theme-reimu 博客主题定制与修改
2024-11-28 781 字 5 分钟

hexo-theme-reimu 博客主题定制与修改

该文章介绍hexo-theme-reimu博客主题一些深度定制方法,随时更新。
主成分分析和线性回归对比
2024-11-28 1.3k 字 6 分钟

主成分分析和线性回归对比

给定一系列样本点,找到贯穿样本点的直线; 处理这个问题有两类方法,一种是线性回归,另一种是主成分分析。本文从优化目标来比较两者区别。
随机微分方程和扩散模型(待更)
2024-11-28 394 字 2 分钟

随机微分方程和扩散模型(待更)

本文从连续时间随机微分方程的角度介绍扩散模型。
2024-2026 ShqWW
基于 Hexo  Theme.Reimu
ShqWW
ShqWW
文章
8
分类
3
标签
10

首页

归档

关于