2025

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

所爱隔山海，山海亦可平

Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？

DeepSeekV3.2后训练：稳定压倒一切

DeepSeekMath-V2自我验证：搞数据的风吹到了奖励模型

两处容易踩的坑：LLM 消息数组与字典工具的隐藏副作用

Hybrid LLM 之 Gated DeltaNet

Reward建模新范式：无验证器RL与Reference的妙用

子非我，安知我不知鱼之乐——AI、人类与意识的边界

Reinforce++和它的KL Loss选择

Hybrid LLM 之 Gated Attention

记一次诡异的 FD 泄露：躲在暗处的猴子补丁

GRPO“又一背锅侠”：Clip的各种拉扯

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

关于gpt-oss那些值得关注的点

重识LLM法则：上下文工程与数据进化

GiGPO：双层级优势函数驱动的Agent强化学习新范式

解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略

激活诱导LLM指令跟随

60小时备考高架擦边过经验

指令跟随近期工作梳理（2025年上半年）

GRPO优化在继续——CISPO和熵

Reward Model建模

从Voila看语音端到端发展

R1后范式最佳实践：Seed-Thinking和Qwen3

Yarz-Logic：R1-Zero相关实验报告

VAPO：基于价值方法的新突破

R1相关：R1-Zero的进一步理解和探索

异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化！

DAPO：为GRPO的锦上加四点花

DeepSeek R1后应用、职业与行业影响——2025年梳理

DeepSeek R1后LLM新范式

OMNI论文速览（2025）

R1相关：DPO数据选择与DPO等RL算法

预训练：NTP和Scaling Law

LLM、强化、蒸馏讨论

R1相关：RL数据选择与Scaling

R1相关：少量高质量数据SFT激活LLM推理能力

DeepSeek R1深度技术解析及其影响

我为什么做开源？

实时语音交互场景下RAG的机遇和挑战

预训练：无处安放的躁动之心