Research Technical Daily Life Month Journal

Academic Projects Links About Travellings🚇

Back

Tags:#rl

Apr 21, 2025
RL 学习笔记（14）：基于人类反馈的强化学习 (RLHF)
基于人类反馈的强化学习 (RLHF)
10 min read
- rl
Apr 21, 2025
RL 学习笔记（13）：近端策略优化 (PPO)
近端策略优化 (PPO)
10 min read
- rl
Apr 21, 2025
RL 学习笔记（12）：置信域策略优化
置信域策略优化
11 min read
- rl
Apr 21, 2025
RL 学习笔记（11）：Actor-Critic 方法
Actor-Critic 方法
11 min read
- rl
Apr 21, 2025
RL 学习笔记（10）：策略梯度方法
策略梯度方法
12 min read
- rl
Apr 21, 2025
RL 学习笔记（9）：集成规划与学习
集成规划与学习
12 min read
- rl
Apr 21, 2025
RL 学习笔记（8）：n 步自举法
n 步自举法
12 min read
- rl
Apr 21, 2025
RL 学习笔记（7）：Q 学习、DQN 及相关改进
Q 学习
17 min read
- rl
Apr 21, 2025
RL 学习笔记（6）：时序差分学习
时序差分学习
13 min read
- rl
Apr 21, 2025
RL 学习笔记（5）：蒙特卡洛方法
蒙特卡洛方法
21 min read
- rl
Apr 21, 2025
RL 学习笔记（4）：动态规划
动态规划
19 min read
- rl
Apr 21, 2025
RL 学习笔记（3）：马尔可夫决策过程
马尔可夫决策过程
8 min read
- rl
Apr 21, 2025
RL 学习笔记（2）：赌博机问题
赌博机问题
9 min read
- rl
Apr 21, 2025
RL 学习笔记（1）：强化学习简介
强化学习简介
18 min read
- rl

京 ICP 2025143919© 2026阿汐 &Site policyAstrotheme powered