2026

COPO：基于认知模式的 Step-Level Agentic RL 优化

探寻实时学习新路径：挖掘极致高效的“子空间微调”

RL新范式：从经验到更高质量数据——我们不再训练模型，而是在制造数据

Training-Free RL：当“训练”不再更新参数，而是更新上下文

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

稳定压倒一切：MoE RL 训推不一致问题及解决策略

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析

2025

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？

Reward建模新范式：无验证器RL与Reference的妙用

GiGPO：双层级优势函数驱动的Agent强化学习新范式

GRPO优化在继续——CISPO和熵

Yarz-Logic：R1-Zero相关实验报告

R1相关：DPO数据选择与DPO等RL算法

LLM、强化、蒸馏讨论

R1相关：RL数据选择与Scaling