TL;DR
TRPO 解决了强化学习中“策略更新步长难以确定”的痛点。它通过数学证明,将复杂的策略改进过程转化为一个带约束的局部优化问题。
- 核心思想:利用 KL 散度在“概率分布空间”而非“参数数值空间”衡量更新距离。
- 三大支柱:MM 保证单调提升、信任区域(Trust Region)确保更新稳定、共轭梯度(CG)实现高维参数的高效求解。
- 历史地位:它是 PPO 和 GRPO 的理论基石,定义了现代 RL 对齐算法的底层逻辑。
一直想仔细读一下 TRPO 的 paper[1],每次都拖延住,这次是真的不得不上了,趁热打铁,记录一下。顺便说一句,类似 TRPO 这种 paper 是我个人非常喜欢的一类文章,写的很好,非常推荐。
TRPO 这篇论文在现代强化学习中的地位不亚于 “Attention is all you need” 在 LLM 中的地位,后续大放异彩的 PPO、GRPO 其实都是在给 TRPO 的基础上“做减法”。
比如 PPO,TRPO 计算 Fisher 矩阵和共轭梯度实现极其复杂,PPO-Clip 直接用截断把新旧策略的比值强行限制在 之间。而 GRPO 更是把 TRPO 里的思想发挥到了极致,它依然保留了 KL 散度约束,但在去掉 Baseline 这步走的更远,直接通过分组得分来代替 Advantage 估算。
总的来说,只要符合以下三点的,基本都是 TRPO 这一脉的:
- 重要性采样:用旧数据训练新模型,必须修正分布偏差,分子分母的比例永远是核心。
- 信任区域 :步子不能太大,必须限制在一定范围内,否则策略直接崩溃。
- 优势函数:不考虑绝对得分,只看当前动作是否比平均水平更好。