长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
COPO:基于认知模式的 Step-Level Agentic RL 优化
稳定压倒一切:MoE RL 训推不一致问题及解决策略
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
DeepSeekV3.2后训练:稳定压倒一切
Reward建模新范式:无验证器RL与Reference的妙用
Reinforce++和它的KL Loss选择
GRPO“又一背锅侠”:Clip的各种拉扯
GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走
GiGPO:双层级优势函数驱动的Agent强化学习新范式
GRPO优化在继续——CISPO和熵
Yarz-Logic:R1-Zero相关实验报告
VAPO:基于价值方法的新突破
异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化!
DAPO:为GRPO的锦上加四点花