为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路

AI Coding 已经疯了。

我也在一边根据本能在使用,同时也在学习一些新的技巧和方法。直到看到《认知重建:Speckit 用了三个月,我放弃了——走出工具很强但用不好的困境 - 知乎[1]》这篇文章,我觉得自己得系统梳理一下了。

这里就随便那么梳理一下吧,可能会比较乱。

More

稳定压倒一切:MoE RL 训推不一致问题及解决策略

TL;DR

  • 核心矛盾:MoE 模型对输入极度敏感,训练引擎与推理引擎在算子实现、数值精度上的微小差异,会导致同一 Token 在两端选择不同的专家。
  • 现象严重性:实验显示约 94% 的 Token 在一次前向传播中至少有一层路由决策不一致,直接导致策略梯度出现剧烈噪声,引发训练不稳定。
  • 不同策略:算法鲁棒化的 GSPO/GMPO,数学偏差补偿的 TIS/IcePop,系统强行对齐的 R3/DeepSeek。

More

【聆听·微光】004:一位算法后端开发工程师的AI转型之路

【来访者个人档案】

  • 身份: 工作3年的算法专业的后端开发工程师。
  • 自述: 我对现在的工作不满意,我想全面拥抱 AI。

今天来访的是一位老粉丝了,我们后面用 S 同学来称呼。S 同学从2022年我写《ChatGPT 原理与应用开发》那会儿就关注了,根据这个开源项目找到我的博客并 RSS 订阅。后面看了我相当多的博客,对我算是比较熟悉的了。

S 同学想聊的依然是工作和学习(或者说成长),这好像真的是大家共同的主题了,只不过由于背景和条件不同,表现出来的状况和问题也不相同。

More

LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析

TL;DR

  • EXAONE: 改进 GRPO,通过移除 Clip 保留探索性 Token,并利用非对称采样引导模型远离错误路径。

  • Kimi: 从 KKT 条件推导出 RL 目标函数,将长推理过程视为“隐式搜索”,并利用逐步升温长度惩罚解决“过度思考”问题。

  • MiMo: 采用反向 KL 散度进行多教师蒸馏(MOPD),实现“寻找众数”的精准能力迁移。

  • MiniMax: 针对 GRPO Clip 问题,采用带 Stop-gradient 的重要性采样与 Token Mask 机制,不丢弃探索梯度同时确保训练平稳。

  • Qwen: 将重要性权重回归序列级别,引入长度归一化解决 Token-level 高方差,同时增强了 MoE 路由的稳定性,并进一步演进为平滑剪裁的 SAPO。

结论: 行业正从简单的奖励最大化转向更精细的分布对齐、隐式规划引导和训练稳定性控制。

More

【聆听·微光】003:一位对工作迷茫的程序员的觉醒时刻

【来访者个人档案】

  • 身份: 工作1-2年的后端开发工程师。
  • 自述: 我觉得现在的工作没有价值,时而感到迷茫。

今天通话的伙伴是 L 同学,刚毕业工作了一两年,在银行做系统,稳定的同时又备受煎熬,在工作中找不到意义和价值。同时又有自己的创业小项目,有现金流,但还无法全职的程度。L 同学是公众号的老粉丝了,看过我不少文章,他自己的创业小项目也是受《实时语音交互场景下RAG的机遇和挑战 | 长琴》这篇文章的启发。

L 同学的困惑主要是工作相关和 AI 时代如何提升性学习。从问题表面来看其实是比较容易解决的,不过在聊的时候发现,其实这些问题只是 L 同学在探索和找寻自身意义和价值过程中的自然表现,这才是根源所在。

More

【聆听·微光】002:一位普通院校硕士研究生的毕业之际

【来访者个人档案】

  • 身份: 即将硕士研究生毕业。
  • 自述: 我觉得自己决策慢、做事情慢、好像行动力不强。

今天的来访者是 J 同学,一位研三、正在找工作、即将踏入社会的、有一点迷茫但又有一些憧憬的典型毕业季同学。

J 同学读的文章是《我为什么做开源? | 长琴》,结果被我里面说的一句话”打击“了,觉得自己可能不适合技术。这句话是这样的:

我也始终觉得,通过嚼碎的内容是没法成为一个优秀工程师的,也不是一个大学生更不是一个已经工作的人应该使用的学习方式。所以,我的所有教程都没有环境部分,我觉得要是连环境都搞不定,可能真的不适合这个行业。

J 同学说自己就是需要嚼碎的内容,可能搞不定环境。

虽然那是我的真实想法,但这么赤裸裸的表达对一个可能不那么喜欢、同时又是技术相关专业的新人来说,可能有点过于苛刻了。还请 J 同学不要放在心上。

J 同学的问题比较典型,总的来说可以分三块:工作、能力和认知。

More

从平面国到硅世界:当文明被困在自己的维度里

今天看完了《平面国》,一本著于 1884 年的小书,一本看似讲物理,其实讲社会和人类的书。

一千个人眼中有一千个哈姆雷特,同样,每一个人看书都会有自己不同的视角和理解。当下,正值 AI 迅猛发展的时刻,一切的一切看似都在往好的方面发展,我前几天才写完《以 AI Coding 之管窥探世界之变 | 长琴》,今天看完这本书,又有了新的理解。本文尽量谈一些观点和认知层面的,避免剧透。

平面国的主角是一位二维世界的正方形,前面大部分内容都在介绍二维世界是怎么运行维系的。后面才开启了先到一维,再到三维、零维,想去更高维,但最终回到二维的一段经历。

More

【聆听·微光】001:一位研究生在读的”reward hacker“关于学习的困惑

【来访者个人档案】

  • 身份:研究生在读,大模型方向实习生。
  • 自述:我是个 Reward Hacker,为了面试通过,我刷题、背八股,但我心里慌。

2025 年 1 月 2 日,昨天发完小红书后,今天迎来了第一位小伙伴。

第一位小伙伴(我们后面称他为 F 同学)就和我想象中的不一样,我本来以为他会问关于大模型和相关工作的问题,没想到他更加关注的居然是 ”学习“ 问题。他看的博客是《Hybrid LLM 之 Gated DeltaNet | 长琴》。

More

聆听·微光

一段比较长的背景

那些没被技术替代的,才是“人”

我的公众号叫《技术与人》,技术是因为自己热爱技术,喜欢探索技术;而“人”则是重要的另一面,所有的技术,最后总归须落到人身上。

“技术”方向的文章很好写,毕竟写了快 10 年了,虽然现在 AI 发展迅猛,但个人写作能力和每次瞄准的写作方向也不太是 AI 能替代的(可以参考我在这里的观点)。

“人”这个方向却一直没有找到合适的创作内容。其实我是老早就想写这块内容了,但一方面是没找到合适的内容,另一方面也是因为自己的技术还在快速积累,时间和精力也不允许。

不过“人”这个方向的“方向”应该是老早就明确的——给他人更多的帮助和温暖。现在知乎草稿箱里还躺着一句 2020 年写的话:“为这个人人自危的时代注入一丝温暖”,对应的标题是《孤独》。可能那会儿一个人又学到瓶颈了,并且对职业和人生又有点迷茫了。但后面又慢慢想清楚了。

More

以 AI Coding 之管窥探世界之变

TL;DR

  • 过去三周,我用 AI Coding 在零碎时间完成了 7 个真实项目,其中多个已开源并投入实际使用。
  • AI 已经不再只是“辅助写代码”,而是在架构清晰、决策明确的前提下,实质性替代了大量中级开发工作
  • AI Coding 的上限不在模型,而在使用者:是否会设计、会 review、会做关键决策。
  • 由 AI Coding 的跃迁可以窥见更大的变化:世界正在进入“超级个体”时代,个人能力被放大,但分化会更剧烈。
  • 算法层面,基础模型、RL、多模态会继续变得更强大、更智能。
  • 产品层面,具身智能、虚拟世界不再遥远,AIGC 将攻占互联网。
  • 面对不可逆的技术浪潮,我选择“批判地接受”:积极参与,同时保留理性与属于自己的私有空间。

2025 年最后一天,2026 年第一天,之际,很想聊聊 AI 编程。我记得 2024 年底的时候,AI 编程还不怎么好用,当时用 MetaGPT 写了一个贪吃蛇,结果有个 bug 半天怎么都没弄好,最后还是我自己手动改了两处代码。

万万没想到啊,这才一年不到的时间,AI 编程居然到了如斯地步。年初的时候听说 cursor 比较好用,下载后随便玩了一下感觉没有想象中那么强。也尝试过 VSCode 的插件 Cline,用它做了个 Code review,怎么说呢,感觉没有达到自己的预期。

其实,我一直是重度 AI 使用者,Code 也在用,只是没有在一个 IDE 里用,大部分时候都是在 ChatGPT 的对话框里完成。常见的任务包括:完成某个功能的脚本、对已有代码进行改造(比如改多线程、异步等)、写单元测试等。

直到最近,突然看到 Trae 发布了 Solo 模式,想着试一试,于是在 2025 年 12 月初一下子开启了全面的 AI Coding。

More