Reinforcement Learning
2026-03-30
强化学习基础 RL基础概念 贝尔曼方程(Bellman Equation) 贝尔曼最优方程(Bellman Optimality Equation) 价值迭代和策略迭代 强化学习Model-Free之蒙特卡洛 强化学习Model-Free之时序差分 从价值函数到DQN 改进算法 从DPG到DDPG LLM中的RL DPO(Direct Preference Optimization) GRPO(Group Relative Policy Optimization)