
首页

归档

关于
简体中文
  • 简体中文
  • English

MIMI的小窝

ShqWW
ShqWW
文章
7
分类
3
标签
10

标签云

Docker LLM Linux Web技术 博客 图形学 强化学习 扩散模型 机器学习 运维

最新文章

  • LLM强化学习后训练系列(一)
  • Docker 系列之代理配置
  • Linux下配置zsh和oh my zsh
  • linux服务器使用ssh秘钥登录以及禁用ssh密码登录
  • hexo-theme-reimu 博客主题定制与修改
LLM强化学习后训练系列(一)
2026-04-19 145 字 1 分钟

LLM强化学习后训练系列(一)

本系列为LLM强化学习后训练梳理与总结. 强化学习讨论的是一个智能体如何在复杂不确定的环境中去极大化它能获得的奖励。通过感知所处环境的状态对动作的反应,来指导更好的动作,从而获得最大的收益,这被称为在交互中学习,这样的学习方法就被称作强化学习。 Reinforcement learning is learning what to do—how to map situations to actions——so as to maximize a numerical reward signal. ----- Richard S. Sutton and Andrew G. Barto 《Reinfor
Docker 系列之代理配置
2024-11-28 498 字 3 分钟

Docker 系列之代理配置

本文从不同角度介绍docker使用过程中的代理配置。
Linux下配置zsh和oh my zsh
2024-11-28 368 字 2 分钟

Linux下配置zsh和oh my zsh

Linux下配置zsh和oh my zsh方法。
linux服务器使用ssh秘钥登录以及禁用ssh密码登录
2024-11-28 292 字 2 分钟

linux服务器使用ssh秘钥登录以及禁用ssh密码登录

linux服务器使用ssh秘钥登录以及禁用ssh密码登录。
hexo-theme-reimu 博客主题定制与修改
2024-11-28 781 字 5 分钟

hexo-theme-reimu 博客主题定制与修改

该文章介绍hexo-theme-reimu博客主题一些深度定制方法,随时更新。
随机微分方程和扩散模型(待更)
2024-11-28 394 字 2 分钟

随机微分方程和扩散模型(待更)

本文从连续时间随机微分方程的角度介绍扩散模型。
主成分分析和线性回归对比
2024-11-28 1.3k 字 6 分钟

主成分分析和线性回归对比

给定一系列样本点,找到贯穿样本点的直线; 处理这个问题有两类方法,一种是线性回归,另一种是主成分分析。本文从优化目标来比较两者区别。
2024-2026 ShqWW
基于 Hexo  Theme.Reimu
ShqWW
ShqWW
文章
7
分类
3
标签
10

首页

归档

关于