强化学习

为什么是优势函数

经过一段对强化学习相关工作的参与，对于强化学习算法中的优势函数在做什么事情有了一定的感知和理解，现记录于此防止本人鱼一般记忆带来的损失。注：本文的讨论主要是针对policy-based的RL方法，对于Q-learning，DQN等直接输出value并且直接选择value大的作为输出的方法不予讨论

2025-10-02

机器学习