机器学习
为什么是优势函数
经过一段对强化学习相关工作的参与,对于强化学习算法中的优势函数在做什么事情有了一定的感知和理解,现记录于此防止本人鱼一般记忆带来的损失。
注:本文的讨论主要是针对policy-based的RL方法,对于Q-learning,DQN等直接输出value并且直接选择value大的作为输出的方法不予讨论
attention到底在做什么
前言
近期看了anthropic的一些关于attention可解释性的文章,感觉很有意思,试着做了一些总结和思考,也希望给之后继续学习ml system层面对transformer的优化明确一些较为基本的常识,现记录在此。
回顾attention
attention数学形式
首先,我们先不要去考虑multi...