长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
COPO:基于认知模式的 Step-Level Agentic RL 优化
探寻实时学习新路径:挖掘极致高效的“子空间微调”
RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据
Training-Free RL:当“训练”不再更新参数,而是更新上下文
DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线
通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考
MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?
稳定压倒一切:MoE RL 训推不一致问题及解决策略
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
Reward建模新范式:无验证器RL与Reference的妙用
GiGPO:双层级优势函数驱动的Agent强化学习新范式
GRPO优化在继续——CISPO和熵
Yarz-Logic:R1-Zero相关实验报告
R1相关:DPO数据选择与DPO等RL算法
LLM、强化、蒸馏讨论
R1相关:RL数据选择与Scaling