【聆听·微光】003:一位对工作迷茫的程序员的觉醒时刻

【来访者个人档案】

  • 身份: 工作1-2年的后端开发工程师。
  • 自述: 我觉得现在的工作没有价值,时而感到迷茫。

今天通话的伙伴是 L 同学,刚毕业工作了一两年,在银行做系统,稳定的同时又备受煎熬,在工作中找不到意义和价值。同时又有自己的创业小项目,有现金流,但还无法全职的程度。L 同学是公众号的老粉丝了,看过我不少文章,他自己的创业小项目也是受《实时语音交互场景下RAG的机遇和挑战 | 长琴》这篇文章的启发。

L 同学的困惑主要是工作相关和 AI 时代如何提升性学习。从问题表面来看其实是比较容易解决的,不过在聊的时候发现,其实这些问题只是 L 同学在探索和找寻自身意义和价值过程中的自然表现,这才是根源所在。

More

【聆听·微光】002:一位普通院校硕士研究生的毕业之际

【来访者个人档案】

  • 身份: 即将硕士研究生毕业。
  • 自述: 我觉得自己决策慢、做事情慢、好像行动力不强。

今天的来访者是 J 同学,一位研三、正在找工作、即将踏入社会的、有一点迷茫但又有一些憧憬的典型毕业季同学。

J 同学读的文章是《我为什么做开源? | 长琴》,结果被我里面说的一句话”打击“了,觉得自己可能不适合技术。这句话是这样的:

我也始终觉得,通过嚼碎的内容是没法成为一个优秀工程师的,也不是一个大学生更不是一个已经工作的人应该使用的学习方式。所以,我的所有教程都没有环境部分,我觉得要是连环境都搞不定,可能真的不适合这个行业。

J 同学说自己就是需要嚼碎的内容,可能搞不定环境。

虽然那是我的真实想法,但这么赤裸裸的表达对一个可能不那么喜欢、同时又是技术相关专业的新人来说,可能有点过于苛刻了。还请 J 同学不要放在心上。

J 同学的问题比较典型,总的来说可以分三块:工作、能力和认知。

More

从平面国到硅世界:当文明被困在自己的维度里

今天看完了《平面国》,一本著于 1884 年的小书,一本看似讲物理,其实讲社会和人类的书。

一千个人眼中有一千个哈姆雷特,同样,每一个人看书都会有自己不同的视角和理解。当下,正值 AI 迅猛发展的时刻,一切的一切看似都在往好的方面发展,我前几天才写完《以 AI Coding 之管窥探世界之变 | 长琴》,今天看完这本书,又有了新的理解。本文尽量谈一些观点和认知层面的,避免剧透。

平面国的主角是一位二维世界的正方形,前面大部分内容都在介绍二维世界是怎么运行维系的。后面才开启了先到一维,再到三维、零维,想去更高维,但最终回到二维的一段经历。

More

【聆听·微光】001:一位研究生在读的”reward hacker“关于学习的困惑

【来访者个人档案】

  • 身份:研究生在读,大模型方向实习生。
  • 自述:我是个 Reward Hacker,为了面试通过,我刷题、背八股,但我心里慌。

2025 年 1 月 2 日,昨天发完小红书后,今天迎来了第一位小伙伴。

第一位小伙伴(我们后面称他为 F 同学)就和我想象中的不一样,我本来以为他会问关于大模型和相关工作的问题,没想到他更加关注的居然是 ”学习“ 问题。他看的博客是《Hybrid LLM 之 Gated DeltaNet | 长琴》。

More

聆听·微光

一段比较长的背景

那些没被技术替代的,才是“人”

我的公众号叫《技术与人》,技术是因为自己热爱技术,喜欢探索技术;而“人”则是重要的另一面,所有的技术,最后总归须落到人身上。

“技术”方向的文章很好写,毕竟写了快 10 年了,虽然现在 AI 发展迅猛,但个人写作能力和每次瞄准的写作方向也不太是 AI 能替代的(可以参考我在这里的观点)。

“人”这个方向却一直没有找到合适的创作内容。其实我是老早就想写这块内容了,但一方面是没找到合适的内容,另一方面也是因为自己的技术还在快速积累,时间和精力也不允许。

不过“人”这个方向的“方向”应该是老早就明确的——给他人更多的帮助和温暖。现在知乎草稿箱里还躺着一句 2020 年写的话:“为这个人人自危的时代注入一丝温暖”,对应的标题是《孤独》。可能那会儿一个人又学到瓶颈了,并且对职业和人生又有点迷茫了。但后面又慢慢想清楚了。

More

以 AI Coding 之管窥探世界之变

TL;DR

  • 过去三周,我用 AI Coding 在零碎时间完成了 7 个真实项目,其中多个已开源并投入实际使用。
  • AI 已经不再只是“辅助写代码”,而是在架构清晰、决策明确的前提下,实质性替代了大量中级开发工作
  • AI Coding 的上限不在模型,而在使用者:是否会设计、会 review、会做关键决策。
  • 由 AI Coding 的跃迁可以窥见更大的变化:世界正在进入“超级个体”时代,个人能力被放大,但分化会更剧烈。
  • 算法层面,基础模型、RL、多模态会继续变得更强大、更智能。
  • 产品层面,具身智能、虚拟世界不再遥远,AIGC 将攻占互联网。
  • 面对不可逆的技术浪潮,我选择“批判地接受”:积极参与,同时保留理性与属于自己的私有空间。

2025 年最后一天,2026 年第一天,之际,很想聊聊 AI 编程。我记得 2024 年底的时候,AI 编程还不怎么好用,当时用 MetaGPT 写了一个贪吃蛇,结果有个 bug 半天怎么都没弄好,最后还是我自己手动改了两处代码。

万万没想到啊,这才一年不到的时间,AI 编程居然到了如斯地步。年初的时候听说 cursor 比较好用,下载后随便玩了一下感觉没有想象中那么强。也尝试过 VSCode 的插件 Cline,用它做了个 Code review,怎么说呢,感觉没有达到自己的预期。

其实,我一直是重度 AI 使用者,Code 也在用,只是没有在一个 IDE 里用,大部分时候都是在 ChatGPT 的对话框里完成。常见的任务包括:完成某个功能的脚本、对已有代码进行改造(比如改多线程、异步等)、写单元测试等。

直到最近,突然看到 Trae 发布了 Solo 模式,想着试一试,于是在 2025 年 12 月初一下子开启了全面的 AI Coding。

More

站在 30-40 岁的档口

人都说 30 而立,40 知天命。以前也懂,但毕竟不如亲自体验来的真实。这不,在快要进入“知天命”的路上,这种感觉愈发的真实。根据平时网上看到的一些文字,我知道,这种体会和感受应该是普遍的。

More

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

在 DeepSeek R1 之后,GRPO 几乎成了后训练的默认选项。它确实“好用”——在很多任务上,模型的 pass@1 明显提高了。但一个更根本的问题始终没有被真正回答:我们是在把模型“教得更会想”,还是只是在把它“已有的正确想法更容易采出来”?

如果答案只是后者,那么强化学习更像是一种采样精炼器;而如果答案是前者,那就意味着模型的推理能力可以被系统性地“向外推”。

这两种理解对应着不同的训练目标,也自然导向了不同的训练策略。与之相关的研究结论之所以看似分化,往往源于训练设定与任务分布的差异:在某些工作中,RL 被观察到伴随能力跃迁;而在另一些设定下,其作用则始终未超出 Base 模型的能力边界。

本文并不试图在“RL 是否能够突破 Base”这一争论中选边站队,而是系统梳理已有工作的结论与假设,试图澄清一个更关键的问题:

在什么条件下,RL 才可能表现为能力外推?而在什么情况下,它更合理地被理解为一种采样与抛光机制?

More

所爱隔山海,山海亦可平

前段时间空闲时间偶尔会想一个问题:“当历史的积累超越了人类学习的极限时会发生什么?”

其实不说以后,就现在已然出现知识爆炸的情况,研究方向越来越细,都不是“隔行如何山”了,稍微跨个方向可能都相差极大。是不是可以认为已经差不多到了“穷尽一生也学不完某个方向”的地步?

庄子曾说:“吾生也有涯,而知也无涯。以有涯随无涯,殆矣”。学无止境,古希腊哲学家芝诺也曾讲过一个“知识圆圈说”的故事。大概意思是,一个人的知识就好像一个圆圈,知识越多,圆圈越大,接触到的未知也越大。通俗来说就是:“知道的越多,不知道的越多”。

大哲学家尚且如此,我们普通人,怎么说呢,就是你越是热爱学习,越是努力学习,越发现知识的深不可测,以及自己的无知。我将之称为“知识黑洞”——当我们对一个方向钻研深入时,就好像误入黑洞——渺小、无助、但被吸引。

我是一名 AI 工程师,说到AI领域,那更是黑洞中的黑洞。文本、图像、视频、音频等不同模态算法,大模型、多模态、强化学习、推理部署等不同方向,这些还不算细分风向,比如大模型下的预训练、文本下的搜索、推理部署下的量化等等。另外,AI还属于计算机的分支,作为工程师你不能不懂编程、数据结构、计算机原理、网络、数据库等等。虽然很多方面可能并不需要掌握精深,但学习探索的时候也很容易扎下去,学到恍惚、迷惘。我时常会有这种无力感,不光是因为知识的无限,更是因为——我已经无法再像过去那样,相信“只要足够努力,就能覆盖足够多的世界”。很多时候我都会自问:努力之后呢?努力到什么时候呢?

面对这种情况,大概只有两种选择:不学和去学。

不学,很简单——维持现状,在现有位置上躺着即可。这种选择其实不见得不好。年轻的时候总觉得人就是得干出一番事业来,随着年纪的增长,逐渐认识到,平凡也是一种生活方式。幸福如人饮水,冷暖自知。很多时候“我”觉得人应该怎样其实只是“我”自己的观点,万不能强加到他人头上。

那去学呢?这就要考虑学什么、怎么学的问题。诚然,我们可以漫无目的地去学,这本身也是一种学习方式。但显然我们更看重有选择地去学,倒不一定有目的。这关键是机会成本,随着年纪增长,时间和精力越来越成为我们最宝贵的资源,我们当然希望能更有效力利用这些资源。这里的“有效”其实隐含了一个假设:我们需要有一个主线,说是理想也好、长期目标也罢,它的作用就是防止我们随波逐流,被这日益浮躁的社会冲跑。长期以往,即便速度慢,整体效率也不会低。在我看来,这个主线简单来说就是“所爱”——你所热爱的、挚爱的、永远为之着迷、为之充满热情的事物。找到它,一点一滴构建属于自己的体系,一砖一瓦筑造属于自己的框架。

“路虽远,行则将至”,心有所属,“不断前进,不断走向下一个目标”便是自然之事。这趟旅途可能永无终点,旅途路上可能日渐孤单,但我相信,“心之所向,身之所往”——“永远在路上”就是最好的修行。我不知道这样做是否能够获得世俗意义的成功,但它一定会让我们的心更加平静、祥和,这难道不也是一种成功?也许,人生本就没有所谓完美和圆满吧?

Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?

随着 GRPO 在后训练的不断应用和成熟,越来越多的任务都开始采用 RL 作为进一步提升效果的方案。但是对于那些缺乏明确标准答案的场景,除了人工标注外,还有没有其他比较高效、低成本的方案呢?

R1 之后出现了一种比较激进的方案:无验证 RL,模型不再依赖外部验证器,而是仅利用自身内部信号,如一致性、置信度或分布特征等来构造学习信号。

从最早的多数投票(TTRL、SRT),到基于熵与自确定性的强化学习,再到引入语义多样性与进化机制的最新方法,这个方向看似在不断取得进展,但其实这一类方法有个很严重的问题:“绝大多数内部反馈机制,本质上都在推动策略熵持续下降。”

这既解释了它们在训练初期或部分任务的有效性,同时也揭示了很多时候性能退化和探索崩塌的缘由。最新的工作从各个角度提出改进策略,如优势重塑、多样性奖励到进化式选择等等,但归根结底也都是在增加模型的探索能力,或者说平衡探索-利用。那么,对这种新的 RL 范式,你怎么看?


TL;DR

  • TTRL / SRT、EM / RENT、Intuitor、EMPO 等方法都在显式或隐式地最小化策略熵。
  • 内部反馈奖励几乎必然导致策略熵单调下降,最终引发探索不足与性能退化。
  • ETTRL 通过高熵 token 分支 rollout 与基于熵的 advantage 重塑,缓解早期过度自信。
  • Darling 将语义多样性显式并入奖励,增加探索。
  • EVOL-RL 以“多数选择 + 新颖性变异”模拟进化过程,在稳定与探索之间取得更优平衡。
  • RESTRAIN 利用全部 rollout 信号,对低一致性与过度自信样本进行系统性惩罚。

方案 具体做法 特点
TTRL 250422[1] / SRT 250527[2] 多数投票答案 部分领域(数学)使用
EM 250521[3] FT 直接最小化 token 级别熵(类似 SFT) 数学和编码任务中强
EM 250521[3] RL / RENT 250528[4] 熵作为奖励 能在大型数据集上收敛
EM 250521[3] INF 将 LLM 输出的 logits 视为可自由优化的参数 最小化输出分布的熵
EMPO 250408[5] 将输出按语义聚类,语义簇熵作为奖励 增加一点多样性
Intuitor 250526[6] 自确定性(输出分布与均匀分布的平均 KL 散度)作为奖励 对“更长文本偏好”偏差不敏感
ETTRL 250815[7] 树状分支 rollout + Advantage clip 降低成本、缓解早期估计偏差
Darling 250902[8] 奖励×多样性 增加回复的语义多样性
EVOL-RL 250918[9] 模拟生物进化增加新颖性奖励 防止熵崩塌
RESTRAIN 251002[10] 惩罚低一致性样本同时保留高潜力推理链 无监督自我改进

More