2026

为什么TRPO在LLM里不能用？——FiberPO的起点

VLA Sim-Real 协同训练

你可能没那么懂 SFT：SFT 与 RL 的爱恨纠葛

GAGPO：如果把GiGPO拉回PPO+GAE

TRPO深度拆解：为什么做后训练应该读懂TRPO

红豆为什么会滚——从两岁女儿的玩耍说起

COPO：基于认知模式的 Step-Level Agentic RL 优化

【聆听·微光】006：一位传统企业中层管理在AI转型升级中的“蜀道”

MoE RL 训练不稳定性再思考：训推不一致，还是采样噪声？

稳定压倒一切：MoE RL 训推不一致问题及解决策略

【聆听·微光】004：一位算法后端开发工程师的AI转型之路

【聆听·微光】003：一位对工作迷茫的程序员的觉醒时刻

【聆听·微光】002：一位普通院校硕士研究生的毕业之际

【聆听·微光】001：一位研究生在读的”reward hacker“关于学习的困惑

聆听·微光

2025

DeepSeekV3.2后训练：稳定压倒一切

DeepSeekMath-V2自我验证：搞数据的风吹到了奖励模型

重识LLM法则：上下文工程与数据进化

GiGPO：双层级优势函数驱动的Agent强化学习新范式

解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略

指令跟随近期工作梳理（2025年上半年）

GRPO优化在继续——CISPO和熵

Reward Model建模

从Voila看语音端到端发展

R1后范式最佳实践：Seed-Thinking和Qwen3

Yarz-Logic：R1-Zero相关实验报告

VAPO：基于价值方法的新突破

R1相关：R1-Zero的进一步理解和探索

异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化！

DAPO：为GRPO的锦上加四点花

OMNI论文速览（2025）

R1相关：DPO数据选择与DPO等RL算法

预训练：NTP和Scaling Law

LLM、强化、蒸馏讨论

R1相关：RL数据选择与Scaling

R1相关：少量高质量数据SFT激活LLM推理能力

实时语音交互场景下RAG的机遇和挑战

预训练：无处安放的躁动之心

2024

LLM指令跟随论文速览（2024-2025）

OMNI论文速览（2024）

SLM论文速览（2024）

音频Codec论文速览（2024）

VITS

XTTS

DAC

TS3-Codec

BigCodec

《真希望父母读过这本书》读书笔记

MIO

Tiny LLM Continual Pre-training：RHO-1

LLM中的演绎推理、归纳推理和溯因推理

LLM极简科普

Programming Language Environment Cheat Sheet

LLM Tiny Pretrain：H2O-Danube and Stable LM

LLM DataManagement：Weaver

LLM DataManagement：Ziya2

LLM Continual Pre-training：Ziya2

2023

OpenAIGC大赛小结

ChatGPT 影响冲击：职业、行业与产业

ChatGPT 标注指南：任务、数据与规范

ChatGPT Prompt 示例

语言模型级联

Put Human in NLP Loop

2022

W2NER解读

《麦肯锡战略化思维》读书笔记

Global Pointer：Novel Efficient Span-based Approach for NER

DeepGen：Diverse Search Ad Generation and Real-Time Customization

FLAN：Fine-tuned Language Models are Zero-Shot Learners

跨视角大脑解码

统一NER为词词关系分类

MarkBERT

预训练模型与传统方法在排序上有啥不同？

量化NLM模型的记忆力

NLP预训练模型的不可能三角

Training Data is More Valuable than You Think

T5：Exploring the limits of Transfer Learning with a Unified Text-to-Text Transformer

ExT5：Towards Extreme Multi-Task Scaling for Transfer Learning

2021

Pretrain, Prompt and Predict, A Systematic Survey of Prompting Methods in NLP

Data Augmentation Approaches in Natural Language Processing：A Survey

Debiasing Techniques for Pre-Trained Language Models

MetaICL：Learning to Learn In Context

R-Drop

UniLM

通过最优转移进行词表学习：VOLT

简单的对比学习框架：SimCSE

高效深度学习：让模型更小、更快、更好

预训练模型的过去、现在和未来

Jupyter Notebook Cheat Sheet

Few-Shot NER and BERT Noisy Learning：ProtoBERT Paper Note

深度探索 Bert：BERTology Paper Note

SqueezeBERT 论文笔记

2020

从 Sentence-BERT 谈句子表征

Bert-Flow 论文笔记

推荐系统概述

Funnel Transformer 论文笔记

PEGASUS 论文笔记

核方法和 SMO

Hard-SVM, Soft-SVM 和 KKT

DeBERTa 论文+代码笔记

RoBERTa 论文+代码笔记

Bart 论文+代码笔记

ALBERT 论文+代码笔记

多贝里《清醒思考的艺术》读书笔记

DistilBERT 论文+代码笔记

Transformer 代码笔记

Luong Attention 论文+代码笔记

GPT-2 论文+代码笔记

Node2Vec 论文+代码笔记

TextRank Keyword Extraction 论文+代码笔记

Reformer, The Efficient Transformer 论文笔记

Bahdanau Attention 论文笔记

Encoder-Decoder Models Attention and Contextual Embedding Note (SLP Ch10)

2019

Neural Architectures for Named Entity Recognition 论文笔记

Few-Shot Charge Prediction with Discriminative Legal Attributes 论文笔记

AINLP GPU 使用体验指南

ELECTRA 论文笔记

CTRL 论文+代码+实践笔记

Bert 论文笔记

Transformer 论文笔记

ERNIE Tutorial（论文笔记 + 实践指南）

Statistical Parsing Note (SLP Ch14)

XLNet 论文笔记

《Elasticsearch 权威指南》之基础入门 Note（基于 7.x）

Syntactic Parsing Note (SLP Ch13)

Formal Grammars of English Note (SLP Ch12)

Sequence Processing with Recurrent Networks Note (SLP Ch09)

Part-of-Speech Tagging Note (SLP Ch08)

一些关于工作的观点（From《华为工作法》）

Neural Networks and Neural Language Models Note (SLP Ch07)

Vector Semantics Note (SLP Ch06)

Logistic Regression Note (SLP Ch05)

Naive Bayes and Sentiment Classification Note (SLP Ch04)

Regular Expressions, Text Normalization, and Edit Distance Note (SLP Ch02)

Information Extraction Note (SLP Ch18)

自然语言计算机形式分析的理论与方法笔记(Ch18)

自然语言计算机形式分析的理论与方法笔记(Ch17)

自然语言计算机形式分析的理论与方法笔记(Ch16)

自然语言计算机形式分析的理论与方法笔记(Ch15)

自然语言计算机形式分析的理论与方法笔记(Ch14)

自然语言计算机形式分析的理论与方法笔记(Ch13)

自然语言计算机形式分析的理论与方法笔记(Ch12)

自然语言计算机形式分析的理论与方法笔记(Ch11)

自然语言计算机形式分析的理论与方法笔记(Ch10)

自然语言计算机形式分析的理论与方法笔记(Ch09)

自然语言计算机形式分析的理论与方法笔记(Ch08)

自然语言计算机形式分析的理论与方法笔记(Ch07)

自然语言计算机形式分析的理论与方法笔记(Ch06)

自然语言计算机形式分析的理论与方法笔记(Ch05)

自然语言计算机形式分析的理论与方法笔记(Ch04)

2018

自然语言计算机形式分析的理论与方法笔记(Ch03)

自然语言计算机形式分析的理论与方法笔记(Ch02)

西蒙《人工科学》读书笔记

自然语言计算机形式分析的理论与方法笔记(Ch01)

NG CNN 笔记

线性代数的本质笔记

微积分的本质笔记

机器学习概念

人工智能哲学笔记

2017

Language Model Note (SLP Ch03)

自然语言处理（NLP）知识地图

2016

Ubuntu16.04 安装 VirtualBox & Vagrant 管理 VirtualBox 各种问题总结

《自私的基因》读书笔记

2015

《管人的真理》读书笔记

《基业长青》读书笔记

《海底捞你学不会》读书笔记