2026

LLM 的下一步：从“会答”到“会想”——Planning as Data 与思考范式重构

探寻实时学习新路径：挖掘极致高效的“子空间微调”

RL新范式：从经验到更高质量数据——我们不再训练模型，而是在制造数据

Training-Free RL：当“训练”不再更新参数，而是更新上下文

Roleplay AI 观察：从 C.AI 到 Talkie，产品、数据、模型与情感需求

DLM 漫谈：并行不是重点，模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线

从 FlashAttention 到 Streaming Reduction：如何把“全局算子”改写成可分块计算

通向 AGI 的技术路径：多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

LLM 强化的“炼金术”：主流开源模型的 RL 优化策略赏析

从平面国到硅世界：当文明被困在自己的维度里

以 AI Coding 之管窥探世界之变

站在 30-40 岁的档口

2025

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

所爱隔山海，山海亦可平

Reward建模新范式：无验证RL——当模型只能相信自己，会发生什么？

Hybrid LLM 之 Gated DeltaNet

Reward建模新范式：无验证器RL与Reference的妙用

子非我，安知我不知鱼之乐——AI、人类与意识的边界

Reinforce++和它的KL Loss选择

Hybrid LLM 之 Gated Attention

GRPO“又一背锅侠”：Clip的各种拉扯

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

关于gpt-oss那些值得关注的点

60小时备考高架擦边过经验

DeepSeek R1后应用、职业与行业影响——2025年梳理

DeepSeek R1后LLM新范式

DeepSeek R1深度技术解析及其影响

我为什么做开源？

2024

关于AI前沿的思考

基础和取舍

2023

【Rust与AI】LLM模型基本架构

【Rust与AI】概览和方向

关于大语言模型的思考

ChatGPT 开发指南：Hugging LLM Hugging Future

ChatGPT 基础科普：知其一点所以然

「+AI」需要什么？

ChatGPT Prompt工程：设计、实践与思考

人生随笔

GPT3 和它的 In-Context Learning

2022

只如初见的不只爱情

句子表征综述

2020

NLP 表征的历史与未来

分类与 AI

中文分词系列一：思考分词

2019

自然语言记忆模块（NLM）

ChatBot 设计方案

随笔：命运

信息熵与选择：由三门问题想到的

《纳博科夫最喜欢的词》读书笔记与思考

2018

数据结构与算法：思考排序

NLP 与 AI

2018CCF-GAIR：自然语言如何商业落地摘录及思考

2017

由一场供应链讲座引发的思考

语言、AI、情感

随笔：人生，当有所为有所不为

2016

辛普森悖论及其哲学思考

《与机器人共舞》读后感兼谈 AI 与 IA