来自快手的 KAT-Coder-V1 Pro 重磅升级,揭秘强化学习训练稳定性关键因素 - KwaiPilot[1],直接给出了让人惊讶的发现:
RL 训练不稳定的主导因素并不是训推不一致,而是采样噪声本身。
他们发现,当显式抑制噪声强度后,即使存在明显的训推差异,训练依旧保持稳定,并能获得更快的收敛速度。
这可真是——玄之又玄啊。
来自快手的 KAT-Coder-V1 Pro 重磅升级,揭秘强化学习训练稳定性关键因素 - KwaiPilot[1],直接给出了让人惊讶的发现:
RL 训练不稳定的主导因素并不是训推不一致,而是采样噪声本身。
他们发现,当显式抑制噪声强度后,即使存在明显的训推差异,训练依旧保持稳定,并能获得更快的收敛速度。
这可真是——玄之又玄啊。
AI Coding 已经疯了。
我也在一边根据本能在使用,同时也在学习一些新的技巧和方法。直到看到《认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境 - 知乎[1]》这篇文章,我觉得自己得系统梳理一下了。
这里就随便那么梳理一下吧,可能会比较乱。
TL;DR
【来访者个人档案】
今天来访的是一位老粉丝了,我们后面用 S 同学来称呼。S 同学从2022年我写《ChatGPT 原理与应用开发》那会儿就关注了,根据这个开源项目找到我的博客并 RSS 订阅。后面看了我相当多的博客,对我算是比较熟悉的了。
S 同学想聊的依然是工作和学习(或者说成长),这好像真的是大家共同的主题了,只不过由于背景和条件不同,表现出来的状况和问题也不相同。
TL;DR
EXAONE: 改进 GRPO,通过移除 Clip 保留探索性 Token,并利用非对称采样引导模型远离错误路径。
Kimi: 从 KKT 条件推导出 RL 目标函数,将长推理过程视为“隐式搜索”,并利用逐步升温长度惩罚解决“过度思考”问题。
MiMo: 采用反向 KL 散度进行多教师蒸馏(MOPD),实现“寻找众数”的精准能力迁移。
MiniMax: 针对 GRPO Clip 问题,采用带 Stop-gradient 的重要性采样与 Token Mask 机制,不丢弃探索梯度同时确保训练平稳。
Qwen: 将重要性权重回归序列级别,引入长度归一化解决 Token-level 高方差,同时增强了 MoE 路由的稳定性,并进一步演进为平滑剪裁的 SAPO。
结论: 行业正从简单的奖励最大化转向更精细的分布对齐、隐式规划引导和训练稳定性控制。
【来访者个人档案】
今天通话的伙伴是 L 同学,刚毕业工作了一两年,在银行做系统,稳定的同时又备受煎熬,在工作中找不到意义和价值。同时又有自己的创业小项目,有现金流,但还无法全职的程度。L 同学是公众号的老粉丝了,看过我不少文章,他自己的创业小项目也是受《实时语音交互场景下RAG的机遇和挑战 | 长琴》这篇文章的启发。
L 同学的困惑主要是工作相关和 AI 时代如何提升性学习。从问题表面来看其实是比较容易解决的,不过在聊的时候发现,其实这些问题只是 L 同学在探索和找寻自身意义和价值过程中的自然表现,这才是根源所在。
【来访者个人档案】
今天的来访者是 J 同学,一位研三、正在找工作、即将踏入社会的、有一点迷茫但又有一些憧憬的典型毕业季同学。
J 同学读的文章是《我为什么做开源? | 长琴》,结果被我里面说的一句话”打击“了,觉得自己可能不适合技术。这句话是这样的:
我也始终觉得,通过嚼碎的内容是没法成为一个优秀工程师的,也不是一个大学生更不是一个已经工作的人应该使用的学习方式。所以,我的所有教程都没有环境部分,我觉得要是连环境都搞不定,可能真的不适合这个行业。
J 同学说自己就是需要嚼碎的内容,可能搞不定环境。
虽然那是我的真实想法,但这么赤裸裸的表达对一个可能不那么喜欢、同时又是技术相关专业的新人来说,可能有点过于苛刻了。还请 J 同学不要放在心上。
J 同学的问题比较典型,总的来说可以分三块:工作、能力和认知。
今天看完了《平面国》,一本著于 1884 年的小书,一本看似讲物理,其实讲社会和人类的书。
一千个人眼中有一千个哈姆雷特,同样,每一个人看书都会有自己不同的视角和理解。当下,正值 AI 迅猛发展的时刻,一切的一切看似都在往好的方面发展,我前几天才写完《以 AI Coding 之管窥探世界之变 | 长琴》,今天看完这本书,又有了新的理解。本文尽量谈一些观点和认知层面的,避免剧透。
平面国的主角是一位二维世界的正方形,前面大部分内容都在介绍二维世界是怎么运行维系的。后面才开启了先到一维,再到三维、零维,想去更高维,但最终回到二维的一段经历。
【来访者个人档案】
2025 年 1 月 2 日,昨天发完小红书后,今天迎来了第一位小伙伴。
第一位小伙伴(我们后面称他为 F 同学)就和我想象中的不一样,我本来以为他会问关于大模型和相关工作的问题,没想到他更加关注的居然是 ”学习“ 问题。他看的博客是《Hybrid LLM 之 Gated DeltaNet | 长琴》。
我的公众号叫《技术与人》,技术是因为自己热爱技术,喜欢探索技术;而“人”则是重要的另一面,所有的技术,最后总归须落到人身上。
“技术”方向的文章很好写,毕竟写了快 10 年了,虽然现在 AI 发展迅猛,但个人写作能力和每次瞄准的写作方向也不太是 AI 能替代的(可以参考我在这里的观点)。
“人”这个方向却一直没有找到合适的创作内容。其实我是老早就想写这块内容了,但一方面是没找到合适的内容,另一方面也是因为自己的技术还在快速积累,时间和精力也不允许。
不过“人”这个方向的“方向”应该是老早就明确的——给他人更多的帮助和温暖。现在知乎草稿箱里还躺着一句 2020 年写的话:“为这个人人自危的时代注入一丝温暖”,对应的标题是《孤独》。可能那会儿一个人又学到瓶颈了,并且对职业和人生又有点迷茫了。但后面又慢慢想清楚了。
