2026

GAGPO：如果把GiGPO拉回PPO+GAE

TRPO深度拆解：为什么做后训练应该读懂TRPO

COPO：基于认知模式的 Step-Level Agentic RL 优化

LLM 的下一步：从“会答”到“会想”——Planning as Data 与思考范式重构

探寻实时学习新路径：挖掘极致高效的“子空间微调”

RL新范式：从经验到更高质量数据——我们不再训练模型，而是在制造数据

Training-Free RL：当“训练”不再更新参数，而是更新上下文

从 OpenClaw 再谈 AI Coding：我们还剩下什么

Roleplay AI 观察：从 C.AI 到 Talkie，产品、数据、模型与情感需求

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

从 FlashAttention 到 Streaming Reduction：如何把“全局算子”改写成可分块计算

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

为了让AI干活儿，我竭尽所能——我的 Vibe Coding 认知升级之路

稳定压倒一切：MoE RL 训推不一致问题及解决策略

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析

从平面国到硅世界：当文明被困在自己的维度里

以 AI Coding 之管窥探世界之变

2025

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？

DeepSeekV3.2后训练：稳定压倒一切

DeepSeekMath-V2自我验证：搞数据的风吹到了奖励模型

两处容易踩的坑：LLM 消息数组与字典工具的隐藏副作用

Hybrid LLM 之 Gated DeltaNet

Reward建模新范式：无验证器RL与Reference的妙用

子非我，安知我不知鱼之乐——AI、人类与意识的边界

Reinforce++和它的KL Loss选择

Hybrid LLM 之 Gated Attention

GRPO“又一背锅侠”：Clip的各种拉扯

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

关于gpt-oss那些值得关注的点

重识LLM法则：上下文工程与数据进化

GiGPO：双层级优势函数驱动的Agent强化学习新范式

解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略

激活诱导LLM指令跟随

指令跟随近期工作梳理（2025年上半年）

GRPO优化在继续——CISPO和熵

Reward Model建模

R1后范式最佳实践：Seed-Thinking和Qwen3

Yarz-Logic：R1-Zero相关实验报告

VAPO：基于价值方法的新突破

R1相关：R1-Zero的进一步理解和探索

异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化！

DAPO：为GRPO的锦上加四点花

DeepSeek R1后应用、职业与行业影响——2025年梳理

DeepSeek R1后LLM新范式

R1相关：DPO数据选择与DPO等RL算法

预训练：NTP和Scaling Law

LLM、强化、蒸馏讨论

R1相关：RL数据选择与Scaling

R1相关：少量高质量数据SFT激活LLM推理能力

DeepSeek R1深度技术解析及其影响

预训练：无处安放的躁动之心

2024

LLM指令跟随论文速览（2024-2025）

关于AI前沿的思考

Tiny LLM Continual Pre-training：RHO-1

LLM打街霸

LLM中的演绎推理、归纳推理和溯因推理

LLM极简科普

LLM Tiny Pretrain：H2O-Danube and Stable LM

LLM DataManagement：Weaver

LLM DataManagement：Ziya2

LLM Continual Pre-training：Ziya2

2023

【Rust与AI】LLM模型基本架构

【Rust与AI】概览和方向

OpenAIGC大赛小结

关于大语言模型的思考

ChatGPT 开发指南：Hugging LLM Hugging Future

ChatGPT 基础科普：知其一点所以然