2025

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？

DeepSeekV3.2后训练：稳定压倒一切

Reward建模新范式：无验证器RL与Reference的妙用

Reinforce++和它的KL Loss选择

GRPO“又一背锅侠”：Clip的各种拉扯

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

GiGPO：双层级优势函数驱动的Agent强化学习新范式

GRPO优化在继续——CISPO和熵

Yarz-Logic：R1-Zero相关实验报告

VAPO：基于价值方法的新突破

异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化！

DAPO：为GRPO的锦上加四点花