长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构
探寻实时学习新路径:挖掘极致高效的“子空间微调”
RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据
Training-Free RL:当“训练”不再更新参数,而是更新上下文
Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求
DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线
从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算
通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
从平面国到硅世界:当文明被困在自己的维度里
以 AI Coding 之管窥探世界之变
站在 30-40 岁的档口
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
所爱隔山海,山海亦可平
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
Hybrid LLM 之 Gated DeltaNet
Reward建模新范式:无验证器RL与Reference的妙用
子非我,安知我不知鱼之乐——AI、人类与意识的边界
Reinforce++和它的KL Loss选择
Hybrid LLM 之 Gated Attention
GRPO“又一背锅侠”:Clip的各种拉扯
GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走
GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归
群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考
关于gpt-oss那些值得关注的点
60小时备考高架擦边过经验
DeepSeek R1后应用、职业与行业影响——2025年梳理
DeepSeek R1后LLM新范式
DeepSeek R1深度技术解析及其影响
我为什么做开源?
2024
关于AI前沿的思考
基础和取舍
2023
【Rust与AI】LLM模型基本架构
【Rust与AI】概览和方向
关于大语言模型的思考
ChatGPT 开发指南:Hugging LLM Hugging Future
ChatGPT 基础科普:知其一点所以然
「+AI」需要什么?
ChatGPT Prompt工程:设计、实践与思考
人生随笔
GPT3 和它的 In-Context Learning
2022
只如初见的不只爱情
句子表征综述
2021
《舞狮少年》观后——信念、文化与希望
对NLP预训练模型的思考
AI 工程师养成记(上)
2020
NLP 表征的历史与未来
分类与 AI
中文分词系列一:思考分词
2019
自然语言记忆模块(NLM)
ChatBot 设计方案
随笔:命运
信息熵与选择:由三门问题想到的
《纳博科夫最喜欢的词》读书笔记与思考
2018
数据结构与算法:思考排序
NLP 与 AI
2018CCF-GAIR:自然语言如何商业落地摘录及思考
2017
由一场供应链讲座引发的思考
语言、AI、情感
随笔:人生,当有所为有所不为
2016
辛普森悖论及其哲学思考
《与机器人共舞》读后感兼谈 AI 与 IA