长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
TRPO深度拆解:为什么做后训练应该读懂TRPO
COPO:基于认知模式的 Step-Level Agentic RL 优化
LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构
探寻实时学习新路径:挖掘极致高效的“子空间微调”
RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据
Training-Free RL:当“训练”不再更新参数,而是更新上下文
从 OpenClaw 再谈 AI Coding:我们还剩下什么
Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求
DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线
从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算
【聆听·微光】006:一位传统企业中层管理在AI转型升级中的“蜀道”
通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考
MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?
为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路
稳定压倒一切:MoE RL 训推不一致问题及解决策略
【聆听·微光】004:一位算法后端开发工程师的AI转型之路
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
【聆听·微光】003:一位对工作迷茫的程序员的觉醒时刻
【聆听·微光】002:一位普通院校硕士研究生的毕业之际
从平面国到硅世界:当文明被困在自己的维度里
【聆听·微光】001:一位研究生在读的”reward hacker“关于学习的困惑
聆听·微光
以 AI Coding 之管窥探世界之变
站在 30-40 岁的档口
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
所爱隔山海,山海亦可平
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
DeepSeekV3.2后训练:稳定压倒一切
DeepSeekMath-V2自我验证:搞数据的风吹到了奖励模型
两处容易踩的坑:LLM 消息数组与字典工具的隐藏副作用
Hybrid LLM 之 Gated DeltaNet
Reward建模新范式:无验证器RL与Reference的妙用
子非我,安知我不知鱼之乐——AI、人类与意识的边界
Reinforce++和它的KL Loss选择
Hybrid LLM 之 Gated Attention
记一次诡异的 FD 泄露:躲在暗处的猴子补丁
GRPO“又一背锅侠”:Clip的各种拉扯
GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走
GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归
群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考
关于gpt-oss那些值得关注的点
重识LLM法则:上下文工程与数据进化
GiGPO:双层级优势函数驱动的Agent强化学习新范式
解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略
激活诱导LLM指令跟随
60小时备考高架擦边过经验
指令跟随近期工作梳理(2025年上半年)
GRPO优化在继续——CISPO和熵
Reward Model建模
从Voila看语音端到端发展
R1后范式最佳实践:Seed-Thinking和Qwen3
Yarz-Logic:R1-Zero相关实验报告
VAPO:基于价值方法的新突破
R1相关:R1-Zero的进一步理解和探索
异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化!
DAPO:为GRPO的锦上加四点花
DeepSeek R1后应用、职业与行业影响——2025年梳理
DeepSeek R1后LLM新范式
OMNI论文速览(2025)
R1相关:DPO数据选择与DPO等RL算法
预训练:NTP和Scaling Law
LLM、强化、蒸馏讨论
R1相关:RL数据选择与Scaling
R1相关:少量高质量数据SFT激活LLM推理能力
DeepSeek R1深度技术解析及其影响
我为什么做开源?
实时语音交互场景下RAG的机遇和挑战
预训练:无处安放的躁动之心
2024
LLM指令跟随论文速览(2024-2025)
OMNI论文速览(2024)
SLM论文速览(2024)
音频Codec论文速览(2024)
VITS
XTTS
DAC
TS3-Codec
BigCodec
关于AI前沿的思考
《真希望父母读过这本书》读书笔记
基础和取舍
MIO
Tiny LLM Continual Pre-training:RHO-1
LLM打街霸
LLM中的演绎推理、归纳推理和溯因推理
LLM极简科普
Programming Language Environment Cheat Sheet
LLM Tiny Pretrain:H2O-Danube and Stable LM
LLM DataManagement:Weaver
LLM DataManagement:Ziya2
LLM Continual Pre-training:Ziya2
2023
【Rust与AI】LLM模型基本架构
【Rust与AI】概览和方向
OpenAIGC大赛小结
关于大语言模型的思考
ChatGPT 开发指南:Hugging LLM Hugging Future
ChatGPT 基础科普:知其一点所以然
「+AI」需要什么?
ChatGPT 影响冲击:职业、行业与产业
ChatGPT 标注指南:任务、数据与规范
ChatGPT Prompt 示例
语言模型级联
ChatGPT Prompt工程:设计、实践与思考
Put Human in NLP Loop
人生随笔
GPT3 和它的 In-Context Learning
2022
IDE Memo
W2NER解读
《麦肯锡战略化思维》读书笔记
Global Pointer:Novel Efficient Span-based Approach for NER
DeepGen:Diverse Search Ad Generation and Real-Time Customization
只如初见的不只爱情
FLAN:Fine-tuned Language Models are Zero-Shot Learners
W2NER 代码
跨视角大脑解码
统一NER为词词关系分类
MarkBERT
预训练模型与传统方法在排序上有啥不同?
量化NLM模型的记忆力
NLP预训练模型的不可能三角
Training Data is More Valuable than You Think
句子表征综述
T5:Exploring the limits of Transfer Learning with a Unified Text-to-Text Transformer
ExT5:Towards Extreme Multi-Task Scaling for Transfer Learning
2021
《舞狮少年》观后——信念、文化与希望
Multitask Prompted Training Enables Zero-shot Task Generalization
虚拟网络指南
Pretrain, Prompt and Predict, A Systematic Survey of Prompting Methods in NLP
Data Augmentation Approaches in Natural Language Processing:A Survey
Debiasing Techniques for Pre-Trained Language Models
Python Ellipsis
MetaICL:Learning to Learn In Context
浅析文本分类——情感分析与自然语言处理
TensorBay 指南
在 TextCNN 上实验 Dropout 和对比学习
R-Drop
高性能数据处理
Git Memo
Docker Memo
UniLM
通过最优转移进行词表学习:VOLT
简单的对比学习框架:SimCSE
高效深度学习:让模型更小、更快、更好
机器之眼:树莓派摄像头
Unix Cheat Sheet
机器之脑:树莓派初使用
预训练模型的过去、现在和未来
Python 调用 Java
对NLP预训练模型的思考
Jupyter Notebook Cheat Sheet
Rust str 转 String
Few-Shot NER and BERT Noisy Learning:ProtoBERT Paper Note
深度探索 Bert:BERTology Paper Note
AI 工程师养成记(上)
SqueezeBERT 论文笔记
2020
从 Sentence-BERT 谈句子表征
Bert-Flow 论文笔记
NLP 表征的历史与未来
分类与 AI
GBTD + LR 论文笔记
Wide and Deep Learning for Recommender System 论文笔记
矩阵分解
协同过滤
推荐系统概述
Funnel Transformer 论文笔记
模型融合
建模调参
特征工程
EDA
Metrics
PEGASUS 论文笔记
核方法 和 SMO
Find First and Last Position of Element in Sorted Array (LeetCode 34)
Search in Rotated Sorted Array (LeetCode 33, 81, 153)
Swap Nodes in Paris (LeetCode 24)
Hard-SVM, Soft-SVM 和 KKT
Generate Parentheses (LeetCode 22)
AI 小课堂:Activation Function
QA 小课堂:Introduction
DeBERTa 论文+代码笔记
RoBERTa 论文+代码笔记
Bart 论文+代码笔记
中文分词系列一:思考分词
ALBERT 论文+代码笔记
多贝里《清醒思考的艺术》读书笔记
DistilBERT 论文+代码笔记
Transformer 代码笔记
Luong Attention 论文+代码笔记
GPT-2 论文+代码笔记
Node2Vec 论文+代码笔记
TextRank Keyword Extraction 论文+代码笔记
Reformer, The Efficient Transformer 论文笔记
Bahdanau Attention 论文笔记
Rust by Example Brief Note
Encoder-Decoder Models Attention and Contextual Embedding Note (SLP Ch10)
2019
The Rust Programming Language Brief Note (Vol1-Basic)
The Rust Programming Language Brief Note (Vol2-Manage)
Neural Architectures for Named Entity Recognition 论文笔记
Rust Tutorial
剑指 Offer2(Python 版)解析(Ch3)
剑指 Offer2(Python 版)解析(Ch2)
剑指 Offer2(Python 版)解析(Ch4)
剑指 Offer2(Python 版)解析(Ch6)
剑指 Offer2(Python 版)解析(Ch5)
Few-Shot Charge Prediction with Discriminative Legal Attributes 论文笔记
关系提取简述
AINLP GPU 使用体验指南
ELECTRA 论文笔记
The Rust Programming Language Brief Note (Vol4-Advance)
The Rust Programming Language Brief Note (Vol5-Project)
The Rust Programming Language Brief Note (Vol3-Style)
自然语言记忆模块(NLM)
Sort Based on Multiway Tree
Python 小白快速从入门到放弃:使用框架
Python 小白快速从入门到放弃:在结束后
Python 小白快速从入门到放弃:阅读源码
Python 小白快速从入门到放弃:使用模块
Python 小白快速从入门到放弃:基础知识
CTRL 论文+代码+实践笔记
GraphQL Elixir Glance
GraphQL Glance
Bert 论文笔记
Transformer 论文笔记
Longest Palindromic Substring (LeetCode 5)
ERNIE Tutorial(论文笔记 + 实践指南)
ChatBot 设计方案
Median of Two Sorted Arrays (LeetCode 4)
Statistical Parsing Note (SLP Ch14)
随笔:命运
XLNet 论文笔记
数据结构与算法:线性结构
Longest Substring Without Repeating Characters (LeetCode 3)
《Elasticsearch 权威指南》之基础入门 Note(基于 7.x)
Syntactic Parsing Note (SLP Ch13)
Formal Grammars of English Note (SLP Ch12)
信息熵与选择:由三门问题想到的
Sequence Processing with Recurrent Networks Note (SLP Ch09)
常用 DataBase 相关操作和资源
Part-of-Speech Tagging Note (SLP Ch08)
一些关于工作的观点(From《华为工作法》)
Neural Networks and Neural Language Models Note (SLP Ch07)
Vector Semantics Note (SLP Ch06)
Logistic Regression Note (SLP Ch05)
Naive Bayes and Sentiment Classification Note (SLP Ch04)
Regular Expressions, Text Normalization, and Edit Distance Note (SLP Ch02)
DataBase Foreign Data Wrapper
Python 小白快速从入门到放弃:在开始前
Information Extraction Note (SLP Ch18)
自然语言计算机形式分析的理论与方法笔记(Ch18)
自然语言计算机形式分析的理论与方法笔记(Ch17)
自然语言计算机形式分析的理论与方法笔记(Ch16)
《纳博科夫最喜欢的词》读书笔记与思考
自然语言计算机形式分析的理论与方法笔记(Ch15)
自然语言计算机形式分析的理论与方法笔记(Ch14)
自然语言计算机形式分析的理论与方法笔记(Ch13)
自然语言计算机形式分析的理论与方法笔记(Ch12)
自然语言计算机形式分析的理论与方法笔记(Ch11)
自然语言计算机形式分析的理论与方法笔记(Ch10)
自然语言计算机形式分析的理论与方法笔记(Ch09)
自然语言计算机形式分析的理论与方法笔记(Ch08)
自然语言计算机形式分析的理论与方法笔记(Ch07)
自然语言计算机形式分析的理论与方法笔记(Ch06)
自然语言计算机形式分析的理论与方法笔记(Ch05)
自然语言计算机形式分析的理论与方法笔记(Ch04)
2018
数据结构与算法:思考排序
自然语言计算机形式分析的理论与方法笔记(Ch03)
数据结构与算法:导论
绘制文本分类数据
数据结构与算法:前言
自然语言计算机形式分析的理论与方法笔记(Ch02)
西蒙《人工科学》读书笔记
自然语言计算机形式分析的理论与方法笔记(Ch01)
NG CNN 笔记
浙大翁恺老师《C 语言程序设计进阶》笔记
NLP 与 AI
2018CCF-GAIR:自然语言如何商业落地摘录及思考
浙大翁恺老师《程序设计入门——C语言》笔记
线性代数的本质笔记
微积分的本质笔记
“心有麟熙”《强化学习炼金术》系列笔记
机器学习概念
人工智能哲学笔记
Gan 原理、证明与实现
2017
由一场供应链讲座引发的思考
Language Model Note (SLP Ch03)
语言、AI、情感
正则表达式笔记
随笔:人生,当有所为有所不为
自然语言处理(NLP)知识地图
Pandas 入门
Python 编码笔记整理
List, Dict, Array, Series, DataFrame 相互转换
2016
Numpy 入门
Ubuntu16.04 安装 VirtualBox & Vagrant 管理 VirtualBox 各种问题总结
辛普森悖论及其哲学思考
《与机器人共舞》读后感兼谈 AI 与 IA
《自私的基因》读书笔记
2015
《管人的真理》读书笔记
《基业长青》读书笔记
《海底捞你学不会》读书笔记