【聆听·微光】002:一位普通院校硕士研究生的毕业之际

【来访者个人档案】

  • 身份: 即将硕士研究生毕业。
  • 自述: 我觉得自己决策慢、做事情慢、好像行动力不强。

今天的来访者是 J 同学,一位研三、正在找工作、即将踏入社会的、有一点迷茫但又有一些憧憬的典型毕业季同学。

J 同学读的文章是《我为什么做开源? | 长琴》,结果被我里面说的一句话”打击“了,觉得自己可能不适合技术。这句话是这样的:

我也始终觉得,通过嚼碎的内容是没法成为一个优秀工程师的,也不是一个大学生更不是一个已经工作的人应该使用的学习方式。所以,我的所有教程都没有环境部分,我觉得要是连环境都搞不定,可能真的不适合这个行业。

J 同学说自己就是需要嚼碎的内容,可能搞不定环境。

虽然那是我的真实想法,但这么赤裸裸的表达对一个可能不那么喜欢、同时又是技术相关专业的新人来说,可能有点过于苛刻了。还请 J 同学不要放在心上。

J 同学的问题比较典型,总的来说可以分三块:工作、能力和认知。

More

从平面国到硅世界:当文明被困在自己的维度里

今天看完了《平面国》,一本著于 1884 年的小书,一本看似讲物理,其实讲社会和人类的书。

一千个人眼中有一千个哈姆雷特,同样,每一个人看书都会有自己不同的视角和理解。当下,正值 AI 迅猛发展的时刻,一切的一切看似都在往好的方面发展,我前几天才写完《以 AI Coding 之管窥探世界之变 | 长琴》,今天看完这本书,又有了新的理解。本文尽量谈一些观点和认知层面的,避免剧透。

平面国的主角是一位二维世界的正方形,前面大部分内容都在介绍二维世界是怎么运行维系的。后面才开启了先到一维,再到三维、零维,想去更高维,但最终回到二维的一段经历。

本世界

其实整本书还是以二维视角展开的,读的过程中,我们会很容易就将其中的一些“设定”带到我们所处的世界。二维世界有它自己的规则,物理规则倒是其次,主要是社会规则。上层阶级对底层阶级的控制、底层阶级表现出来的特性、不同性别之间的对立……一整套生来就在,鲜有人质疑其合理性的运转规则。而且,随着时间的推移,这套规则愈发无瑕、愈发坚不可摧。看的时候感觉好像自己开了上帝视角在看一个世界(或宇宙),内心涌起一股悲凉的同时不由心想,从宇宙太空看地球,从更高维度看人类,是不是也是如此。那里面关于社会的一切一切,即便这么多年过去,还不是一样可以一一映照在当下。那继续往“上”呢?是否真的有那至高?

跨世界

后面的维度旅行,给人印象最深的唯有两个字:“固执”——无论如何都无法相信更高维度的存在,或者说,不愿意相信超出自己认知的存在。我们在深感无奈的同时也不由得后背发凉——我们是不是也是如此,从某一天开始,认知就被锁死在一个安全区域,超出这个区域的要么被视为大逆不道,要么不屑一顾?请试想一下,你是否只和自己观点相近的人交流?是否难以接受他人的反驳和批评?是否听到不同声音会下意识否认或假装没听见?是否爬到比较好的位置就忘了曾经的迷茫和落魄?或者说,自己一路风顺就根本就不知道这世上还有那么多人“何不食肉糜”?

“固执”的背后唯有两个字:“傲慢”,这两个字是那么的不显,以至于很多人其实都没意识到。但你仔细一想,可不是么,刚刚提到的那种固执可不是另一种形式的“唯我独尊”?这不是傲慢又是什么。《三体》里面有句很经典的话:“弱小和无知不是生存的障碍,傲慢才是”。我们傲慢,仍不自知呀。

人世界

物理上的东西确实比较好玩儿,低维世界的生物也的确非常难以理解高维世界的情况。不信让我们尝试从三维到四维,我们要如何想象一个四维生物能看到并触碰到我们的内脏呢?这可能也是每个世界生物的局限性吧,再想想《三体》的程心,我们看书时在上帝视角,自然觉得她圣母,但若自己身处其中,是否也能看得清真相?《三体》中又有几人能看清真相?程心被骂圣母,但她难道不是千千万万个大众的“代表”?如果大众都是清醒的,程心不就是个普通人。

好在人类还有自身最宝贵的东西:求知欲和理性。注意,这里的求知欲是广义上的,而不仅仅指对某个知识点的欲望。最基本的可谓是哲学三问:我是谁?我从哪里来?我要到哪里去?有了求知欲,人就会去探索、去思考,去变得理性。这是对抗傲慢的唯有效一方法。

我觉得一个社会和文明的进步与否,不能光看物质层面,更应该看非物质层面——人民大众是否提升了自己的求知欲和理性。这几天在读韩非子,我被古人的智慧折服,同时,也真没有感觉到这么多年过去,人类在思想深度上有太多进步。

硅世界

科技在飞速发展,AI 日新月异,世界正在巨变。

我好像看到了互联网被攻占,里面几乎全是 AI 生成的内容。

我好像看到了《The IWM 1000》中的机器,人类可能不再需要学习任何知识。

我好像看到了虚拟世界正在和现实世界重叠,虚和实彼此融合。

我好像看到了真实世界正在被攻占,硅基智能充斥人类社会。

我不知道未来会怎样,是更好,还是更坏?

等等,什么是“好”,什么是“坏”?

平面世界的生物觉得平面国是好,其他世界是坏。那么,三维世界的人类呢?

如果把“维”从物理维度换到其他,比如 AI 呢?

【聆听·微光】001:一位研究生在读的”reward hacker“关于学习的困惑

【来访者个人档案】

  • 身份:研究生在读,大模型方向实习生。
  • 自述:我是个 Reward Hacker,为了面试通过,我刷题、背八股,但我心里慌。

2025 年 1 月 2 日,昨天发完小红书后,今天迎来了第一位小伙伴。

第一位小伙伴(我们后面称他为 F 同学)就和我想象中的不一样,我本来以为他会问关于大模型和相关工作的问题,没想到他更加关注的居然是 ”学习“ 问题。他看的博客是《Hybrid LLM 之 Gated DeltaNet | 长琴》。

More

聆听·微光

一段比较长的背景

那些没被技术替代的,才是“人”

我的公众号叫《技术与人》,技术是因为自己热爱技术,喜欢探索技术;而“人”则是重要的另一面,所有的技术,最后总归须落到人身上。

“技术”方向的文章很好写,毕竟写了快 10 年了,虽然现在 AI 发展迅猛,但个人写作能力和每次瞄准的写作方向也不太是 AI 能替代的(可以参考我在这里的观点)。

“人”这个方向却一直没有找到合适的创作内容。其实我是老早就想写这块内容了,但一方面是没找到合适的内容,另一方面也是因为自己的技术还在快速积累,时间和精力也不允许。

不过“人”这个方向的“方向”应该是老早就明确的——给他人更多的帮助和温暖。现在知乎草稿箱里还躺着一句 2020 年写的话:“为这个人人自危的时代注入一丝温暖”,对应的标题是《孤独》。可能那会儿一个人又学到瓶颈了,并且对职业和人生又有点迷茫了。但后面又慢慢想清楚了。

既然退无可退,就没什么好怕的

我的职业经历是非典型的,如我个人博客简介所言:“从经济学研究、到组织管理、再到全面转型算法,完成跨界进化。”在不同公司曾任 NLP 负责人与 CTO(大概六七十人的团队),但比起管理,我很显然更喜欢写代码和搞模型。我还清晰记得当我从 CTO 那家公司离职时老板的挽留和不解——因为我在下一家公司又是一线技术岗位。

有人可能会问,就不担心年纪大了失业吗?怎么会不担心呢,随着年纪过了 35,再慢慢逼近 40,怎么能不担心呢?但我想,无论如何,还不至于山穷水尽到那种程度。

这可能和我小时候的生活环境有关:太苦了,很多我同龄人都无法理解,更不用说现在的年轻人了。小时候印象非常深的两件事:经常停电点煤油灯、经常吃不饱饭很饿。不到 10 岁就得去地里干活,拉一车化肥爬坡,背上勒的全是血。在地里一干一整天,后背的皮晒的掉了一层又一层。不过比起后面的变故,这些就真的微不足道了。

好了,总之,这么多年过来,日子是一直在变好的,我是打心底不信日子再回退还能退到那会儿那样?2022 年大模型出现后,虽然出现过短暂的迷茫,为此还专门写了一本书:《ChatGPT 原理与应用开发》,质量只能说一般,但当时心情还是挺悲壮的,感觉 NLP 算法已经到头了。写作背景和动机可以阅读这篇文章

真正的稳定,是随时离开的能力

不过,很快我就发现借助 AI,自己的工作效率反而更高了。在 AI Coding 质量比较差的时候,我常用 ChatGPT 对话窗口辅助写代码,当时就感觉效率至少提升 1-2 倍。现在 AI 能力更强了,效率提升何止翻几倍啊,可以参考我最近的体验:《以 AI Coding 之管窥探世界之变 | 长琴》。在 AI 变强的时代,“老” 程序员,有足够项目实战经历、有足够复杂项目的认知背景,其实效率是非常恐怖的。而且,我之前本来就是写过小一阵子前后端的(刚转行算法,公司活儿不多的时候)。所以,我相信找个工作养活自己应该还是可以的。

有人可能会问,就没有想过“上岸”或者去一个稳定的公司,比如国企?当然想过,但我本来就是从国企转行出来的,对国企本身就没那么向往了。另外,我一直也有这么个观点:“真正的稳定应该是任何时候都能找到工作,而不是在一个固定的工作岗位上待着不动”。在某个稳定的环境下呆久了,我觉得反而是一种巨大的不稳定。我很清楚地记得自己从国企转行出来的时候下的决心有多大。

想做一件小事

Ask Me Anything 的后续

好了,铺垫的有点多了。但相信有了这些背景,大家能更容易理解我接下来要做的事情。

2025 年 9 月,小红书搞过一个《Ask Me Anything》的活动,我本来是被拖过去的,但没想到居然有不少人留言咨询。这让我惊讶的同时,也想到了我一直那个对“人”的念想。我本来想就在这个话题上展开,一直回复下去,没想到没多久活动过去了就没有什么流量了,事情自然也就没下文了。

于是,我就想,我是不是可以把这个话题延续下去,因为那些疑惑依然是存在着的啊,依然可能没有被听见、看见和重视。而我的经历和意愿其实还挺适合做这事儿,且这又与我的念想和理想直接相关。

以我之路,助你前行

我出身普通、甚至比较差,半路从跨度超大的方向转行,所有东西全靠自学,前进路线曲折多变,至今仍在一线冲;

我从 2006 年开始思考人生使命和理想,整整十年,2016 年下决心转行,转行后依然面临过许多诱惑和选择,依然持续寻找;

我多年每天快乐地从家去上班,高兴地下班回家,爱情、家庭和事业哪个背后没有苦痛和泪水,哪个不需要持续用心的经营;

我的使命是“用技术改善世界,用认知重塑思维”,这句话是一条从技术开始落到人的长期追求,也是一个普通人近乎 20 年的打磨。

朋友们,请允许我稍稍张扬一回(其实背后很多苦),仅此一次。;)

我的这些过往也许非常普通,也许不适合所有人,但我相信能给很多人带来新的思考和感悟,尤其是当下的年轻人,我相信多多少少会对他们有一些帮助。

我想陪你,走一段窄路

所以,我想延续关于“年轻的困惑”这个话题。

所以,我创办了《聆听·微光》这个栏目。

如果你愿意,我想听听你的想法和困惑,我想看看能否尝试帮你做一些解答。我们以技术为主,但你想聊其他的我也非常欢迎。

每一位来访者我都会亲自去聊,我希望我可以多多听你说,顺带看看能否用我的经历和认知帮到你些许。这样的做法显然是一种“笨办法”,但这么多年我早已习惯了“笨办法”,无论是学习也好、事业也好、爱情也好、家庭也好,哪儿有什么捷径可言。在算法追求全局最优解的时代,我依然想用这种最原始、最没效率的“笨办法”,去链接每一个真实的灵魂。

我希望这件小事能像微光一样,虽然微小、微弱,但能给需要的人带去哪怕一点点的温暖和光亮,如此便足矣。

以 AI Coding 之管窥探世界之变

TL;DR

  • 过去三周,我用 AI Coding 在零碎时间完成了 7 个真实项目,其中多个已开源并投入实际使用。
  • AI 已经不再只是“辅助写代码”,而是在架构清晰、决策明确的前提下,实质性替代了大量中级开发工作
  • AI Coding 的上限不在模型,而在使用者:是否会设计、会 review、会做关键决策。
  • 由 AI Coding 的跃迁可以窥见更大的变化:世界正在进入“超级个体”时代,个人能力被放大,但分化会更剧烈。
  • 算法层面,基础模型、RL、多模态会继续变得更强大、更智能。
  • 产品层面,具身智能、虚拟世界不再遥远,AIGC 将攻占互联网。
  • 面对不可逆的技术浪潮,我选择“批判地接受”:积极参与,同时保留理性与属于自己的私有空间。

2025 年最后一天,2026 年第一天,之际,很想聊聊 AI 编程。我记得 2024 年底的时候,AI 编程还不怎么好用,当时用 MetaGPT 写了一个贪吃蛇,结果有个 bug 半天怎么都没弄好,最后还是我自己手动改了两处代码。

万万没想到啊,这才一年不到的时间,AI 编程居然到了如斯地步。年初的时候听说 cursor 比较好用,下载后随便玩了一下感觉没有想象中那么强。也尝试过 VSCode 的插件 Cline,用它做了个 Code review,怎么说呢,感觉没有达到自己的预期。

其实,我一直是重度 AI 使用者,Code 也在用,只是没有在一个 IDE 里用,大部分时候都是在 ChatGPT 的对话框里完成。常见的任务包括:完成某个功能的脚本、对已有代码进行改造(比如改多线程、异步等)、写单元测试等。

直到最近,突然看到 Trae 发布了 Solo 模式,想着试一试,于是在 2025 年 12 月初一下子开启了全面的 AI Coding。

More

站在 30-40 岁的档口

人都说 30 而立,40 知天命。以前也懂,但毕竟不如亲自体验来的真实。这不,在快要进入“知天命”的路上,这种感觉愈发的真实。根据平时网上看到的一些文字,我知道,这种体会和感受应该是普遍的。


我不知道这是关键时间点还是就是一个普普通通的成长过程,但现实就是如此:

慢慢地越来越不愿取悦他人,任何人。

很多事情上比较随意,感觉怎么样都行。

越来越讨厌虚伪的人和事,厌恶明明很假还看着一派和谐的样子。

懒,朋友圈懒得看、懒得发,自己的公众号懒得宣传,微信都经常懒得看。对所有社交失去耐心,连解释自己都觉得多余。

越来越回归家庭,发自内心觉得家庭最重要。

比原来更加注重身体健康。

老人肉眼可见的一天天变老、腿脚不太灵活、脑子不太好使,看着莫名发堵。

孩子尚小,每天吃睡玩是主题,好在不甚调皮,也能沟通。

孩子比什么都重要。

工作谁知道呢,谁也不知道能干到啥时候。对确定性已不再抱有幻想,只求可持续。

心中依然有理想,但上面好像打了一层蒙版。

不是对生活的妥协,而是自然而然就到了这么一种状态。

更加渴望稳定,但又想拥抱变化。

有时候想逃避某些事情。

变得越来越沉默。


我一直以为人可以在某些方面一辈子保持不变,比如自己的性格。但随着年纪的增长,慢慢发现性格有没有改变不知道,但心态绝对在发生变化。

你依然可能不服输,但却少了许多锋芒;你依然可能有热爱,但却多了许多考量;你依然可能有渴望,但却多了许多克制。

以前看网上说 45 岁的男人怎样怎样,只觉得难以想象,无法理解。现在还没到这年龄呢,风向已经开始变了。噢噢,还有,变得越来越信玄学,以前虽说也信但其实没那么信,现在看起来没那么信,但内心深处貌似比较信。

其实,我都不知道为什么会这样。可能是性格本来就比较顺其自然,也可能经历过太多事和人,也有可能是真的因为年纪增长。


难道这就是所谓“中年男人”?不知不觉、消无声息就这么变成了一个中年大叔……

固然成熟沉稳、技能精湛、心态稳定,但为啥总感觉不太一样呢?是缺了那股无知无畏的冲劲?还是什么其他东西?我不知道答案。

“人到中年”这个主题可能有很多聊不完的话题,但话到嘴边又想,说些啥呢,要说啥呢,要怎么开始说呢。最后化为三个字:“算了吧”。有啥好说的呢,懂得人他本来就懂,不需要多说;不懂的人你说再多他也体会不来,又有什么好说的。

嗯啊,就这样,“算了吧”。


30-40,人生才过了一小截,想想退休年龄,还要工作将近 30 年呢。

有没有什么不一样的走法呢?

RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

在 DeepSeek R1 之后,GRPO 几乎成了后训练的默认选项。它确实“好用”——在很多任务上,模型的 pass@1 明显提高了。但一个更根本的问题始终没有被真正回答:我们是在把模型“教得更会想”,还是只是在把它“已有的正确想法更容易采出来”?

如果答案只是后者,那么强化学习更像是一种采样精炼器;而如果答案是前者,那就意味着模型的推理能力可以被系统性地“向外推”。

这两种理解对应着不同的训练目标,也自然导向了不同的训练策略。与之相关的研究结论之所以看似分化,往往源于训练设定与任务分布的差异:在某些工作中,RL 被观察到伴随能力跃迁;而在另一些设定下,其作用则始终未超出 Base 模型的能力边界。

本文并不试图在“RL 是否能够突破 Base”这一争论中选边站队,而是系统梳理已有工作的结论与假设,试图澄清一个更关键的问题:

在什么条件下,RL 才可能表现为能力外推?而在什么情况下,它更合理地被理解为一种采样与抛光机制?

More

所爱隔山海,山海亦可平

前段时间空闲时间偶尔会想一个问题:“当历史的积累超越了人类学习的极限时会发生什么?”

其实不说以后,就现在已然出现知识爆炸的情况,研究方向越来越细,都不是“隔行如何山”了,稍微跨个方向可能都相差极大。是不是可以认为已经差不多到了“穷尽一生也学不完某个方向”的地步?

庄子曾说:“吾生也有涯,而知也无涯。以有涯随无涯,殆矣”。学无止境,古希腊哲学家芝诺也曾讲过一个“知识圆圈说”的故事。大概意思是,一个人的知识就好像一个圆圈,知识越多,圆圈越大,接触到的未知也越大。通俗来说就是:“知道的越多,不知道的越多”。

大哲学家尚且如此,我们普通人,怎么说呢,就是你越是热爱学习,越是努力学习,越发现知识的深不可测,以及自己的无知。我将之称为“知识黑洞”——当我们对一个方向钻研深入时,就好像误入黑洞——渺小、无助、但被吸引。

我是一名 AI 工程师,说到AI领域,那更是黑洞中的黑洞。文本、图像、视频、音频等不同模态算法,大模型、多模态、强化学习、推理部署等不同方向,这些还不算细分风向,比如大模型下的预训练、文本下的搜索、推理部署下的量化等等。另外,AI还属于计算机的分支,作为工程师你不能不懂编程、数据结构、计算机原理、网络、数据库等等。虽然很多方面可能并不需要掌握精深,但学习探索的时候也很容易扎下去,学到恍惚、迷惘。我时常会有这种无力感,不光是因为知识的无限,更是因为——我已经无法再像过去那样,相信“只要足够努力,就能覆盖足够多的世界”。很多时候我都会自问:努力之后呢?努力到什么时候呢?

面对这种情况,大概只有两种选择:不学和去学。

不学,很简单——维持现状,在现有位置上躺着即可。这种选择其实不见得不好。年轻的时候总觉得人就是得干出一番事业来,随着年纪的增长,逐渐认识到,平凡也是一种生活方式。幸福如人饮水,冷暖自知。很多时候“我”觉得人应该怎样其实只是“我”自己的观点,万不能强加到他人头上。

那去学呢?这就要考虑学什么、怎么学的问题。诚然,我们可以漫无目的地去学,这本身也是一种学习方式。但显然我们更看重有选择地去学,倒不一定有目的。这关键是机会成本,随着年纪增长,时间和精力越来越成为我们最宝贵的资源,我们当然希望能更有效力利用这些资源。这里的“有效”其实隐含了一个假设:我们需要有一个主线,说是理想也好、长期目标也罢,它的作用就是防止我们随波逐流,被这日益浮躁的社会冲跑。长期以往,即便速度慢,整体效率也不会低。在我看来,这个主线简单来说就是“所爱”——你所热爱的、挚爱的、永远为之着迷、为之充满热情的事物。找到它,一点一滴构建属于自己的体系,一砖一瓦筑造属于自己的框架。

“路虽远,行则将至”,心有所属,“不断前进,不断走向下一个目标”便是自然之事。这趟旅途可能永无终点,旅途路上可能日渐孤单,但我相信,“心之所向,身之所往”——“永远在路上”就是最好的修行。我不知道这样做是否能够获得世俗意义的成功,但它一定会让我们的心更加平静、祥和,这难道不也是一种成功?也许,人生本就没有所谓完美和圆满吧?

Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?

随着 GRPO 在后训练的不断应用和成熟,越来越多的任务都开始采用 RL 作为进一步提升效果的方案。但是对于那些缺乏明确标准答案的场景,除了人工标注外,还有没有其他比较高效、低成本的方案呢?

R1 之后出现了一种比较激进的方案:无验证 RL,模型不再依赖外部验证器,而是仅利用自身内部信号,如一致性、置信度或分布特征等来构造学习信号。

从最早的多数投票(TTRL、SRT),到基于熵与自确定性的强化学习,再到引入语义多样性与进化机制的最新方法,这个方向看似在不断取得进展,但其实这一类方法有个很严重的问题:“绝大多数内部反馈机制,本质上都在推动策略熵持续下降。”

这既解释了它们在训练初期或部分任务的有效性,同时也揭示了很多时候性能退化和探索崩塌的缘由。最新的工作从各个角度提出改进策略,如优势重塑、多样性奖励到进化式选择等等,但归根结底也都是在增加模型的探索能力,或者说平衡探索-利用。那么,对这种新的 RL 范式,你怎么看?


TL;DR

  • TTRL / SRT、EM / RENT、Intuitor、EMPO 等方法都在显式或隐式地最小化策略熵。
  • 内部反馈奖励几乎必然导致策略熵单调下降,最终引发探索不足与性能退化。
  • ETTRL 通过高熵 token 分支 rollout 与基于熵的 advantage 重塑,缓解早期过度自信。
  • Darling 将语义多样性显式并入奖励,增加探索。
  • EVOL-RL 以“多数选择 + 新颖性变异”模拟进化过程,在稳定与探索之间取得更优平衡。
  • RESTRAIN 利用全部 rollout 信号,对低一致性与过度自信样本进行系统性惩罚。

方案 具体做法 特点
TTRL 250422[1] / SRT 250527[2] 多数投票答案 部分领域(数学)使用
EM 250521[3] FT 直接最小化 token 级别熵(类似 SFT) 数学和编码任务中强
EM 250521[3] RL / RENT 250528[4] 熵作为奖励 能在大型数据集上收敛
EM 250521[3] INF 将 LLM 输出的 logits 视为可自由优化的参数 最小化输出分布的熵
EMPO 250408[5] 将输出按语义聚类,语义簇熵作为奖励 增加一点多样性
Intuitor 250526[6] 自确定性(输出分布与均匀分布的平均 KL 散度)作为奖励 对“更长文本偏好”偏差不敏感
ETTRL 250815[7] 树状分支 rollout + Advantage clip 降低成本、缓解早期估计偏差
Darling 250902[8] 奖励×多样性 增加回复的语义多样性
EVOL-RL 250918[9] 模拟生物进化增加新颖性奖励 防止熵崩塌
RESTRAIN 251002[10] 惩罚低一致性样本同时保留高潜力推理链 无监督自我改进

More

DeepSeekV3.2后训练:稳定压倒一切

DeepSeek-V3.2 发布后,外界讨论大多集中在“新增了工具使用”、“是不是比某某更强”之类的话题。但如果你真正关心模型训练,会发现它最值得研究的地方根本不在模型能力,而是在 后训练(post-training)阶段的一系列稳定性工程。V3.2 不像 V3 带来结构性突破,更像是一次“工程师版本的 V3.2”:没什么光鲜亮丽的大新闻,但每一个小改动都在解决真实训练痛点。

TL;DR

DeepSeek-V3.2 的后训练重点不是“更强”,而是“更稳”。大量技巧围绕 GRPO 稳定性 展开。

  • 数据部分:多个领域专用专家 → 生成数据 → 蒸馏到统一模型。
  • GRPO 稳定性优化:
    • Advantage 去标准差:消除难度偏差,提高样本权重的公平性。
    • KL 的无偏修正:基于 K3 + 重要性采样,使 KL 梯度更稳定可靠。
    • 序列级 off-policy 掩码:屏蔽高偏差且优势为负的序列,显著提升稳定性。
    • MoE 路由保持:固定专家路由,避免 off-policy 和训推框架不同导致的路由漂移。
    • 采样保持:保持 π_oldπ_θ 的动作空间一致,避免采样截断可能带来的稳定性问题。
  • 工具使用部分提出更高效的思维轨迹管理方式:只有新用户消息进来才清空工具调用推理轨迹,工具调用历史则始终保留。

More