长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
COPO:基于认知模式的 Step-Level Agentic RL 优化
LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构
探寻实时学习新路径:挖掘极致高效的“子空间微调”
RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据
Training-Free RL:当“训练”不再更新参数,而是更新上下文
从 OpenClaw 再谈 AI Coding:我们还剩下什么
Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求
DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线
从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算
通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考
MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?
为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路
稳定压倒一切:MoE RL 训推不一致问题及解决策略
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
从平面国到硅世界:当文明被困在自己的维度里
以 AI Coding 之管窥探世界之变
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
DeepSeekV3.2后训练:稳定压倒一切
DeepSeekMath-V2自我验证:搞数据的风吹到了奖励模型
两处容易踩的坑:LLM 消息数组与字典工具的隐藏副作用
Hybrid LLM 之 Gated DeltaNet
Reward建模新范式:无验证器RL与Reference的妙用
子非我,安知我不知鱼之乐——AI、人类与意识的边界
Reinforce++和它的KL Loss选择
Hybrid LLM 之 Gated Attention
GRPO“又一背锅侠”:Clip的各种拉扯
GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走
GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归
群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考
关于gpt-oss那些值得关注的点
重识LLM法则:上下文工程与数据进化
GiGPO:双层级优势函数驱动的Agent强化学习新范式
解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略
激活诱导LLM指令跟随
指令跟随近期工作梳理(2025年上半年)
GRPO优化在继续——CISPO和熵
Reward Model建模
R1后范式最佳实践:Seed-Thinking和Qwen3
Yarz-Logic:R1-Zero相关实验报告
VAPO:基于价值方法的新突破
R1相关:R1-Zero的进一步理解和探索
异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化!
DAPO:为GRPO的锦上加四点花
DeepSeek R1后应用、职业与行业影响——2025年梳理
DeepSeek R1后LLM新范式
R1相关:DPO数据选择与DPO等RL算法
预训练:NTP和Scaling Law
LLM、强化、蒸馏讨论
R1相关:RL数据选择与Scaling
R1相关:少量高质量数据SFT激活LLM推理能力
DeepSeek R1深度技术解析及其影响
预训练:无处安放的躁动之心
2024
LLM指令跟随论文速览(2024-2025)
关于AI前沿的思考
Tiny LLM Continual Pre-training:RHO-1
LLM打街霸
LLM中的演绎推理、归纳推理和溯因推理
LLM极简科普
LLM Tiny Pretrain:H2O-Danube and Stable LM
LLM DataManagement:Weaver
LLM DataManagement:Ziya2
LLM Continual Pre-training:Ziya2
2023
【Rust与AI】LLM模型基本架构
【Rust与AI】概览和方向
OpenAIGC大赛小结
关于大语言模型的思考
ChatGPT 开发指南:Hugging LLM Hugging Future
ChatGPT 基础科普:知其一点所以然