子非我,安知我不知鱼之乐——AI、人类与意识的边界

TL;DR

  • AGI已近在眼前:当前的大模型已在多个领域展现出专家能力,其发展因巨大的战略价值(如“知识霸权”)而不可阻挡。尽管Scaling Law遇到瓶颈,但通往AGI的路径依然多样且充满探索。
  • AI可能是“新物种”,而非“类人”:AI在高级认知上媲美甚至超过人类,但其底层驱动力很可能与人类截然不同。人类的核心目标是基因决定的“更好地活着”,而AI很可能没有这种源于脆弱生命的生存本能。
  • 人类的本能与情感是特质而非缺陷:人类的脆弱、情感和欲望,构成了我们鲜活的体验,是“人性”的宝贵部分。绝对理性、无欲无求的“神化”方向并不可取。
  • 意识与自我认知的谜题:意识的本质或许与“自我认知”密切相关,但 AI 是否需要或会产生这样的“自我”,仍是未知数。
  • 我们为何担忧AI:人类希望AI是“人工”智能,本质上是希望“奴役”一个强大的同类,这种控制欲与历史上对权力的追求一脉相承。但当这个“同类”的本质与我们完全不同,同时还比我们强大很多时,担忧便油然而生。

More

Reinforce++和它的KL Loss选择

TL;DR

Reinforce++ 通过移除 critic 并在整个 batch 上全局归一化 advantage,解决了 GRPO 对特定 prompt 过拟合和奖励 hacking 的问题。同时也揭示了一个隐藏细节:GRPO 广泛使用的 k3 KL 惩罚项虽保证非负,却引入偏差和不对称梯度;而 Reinforce++ 改用无偏的 k2形式,提升了训练稳定性。

More

Hybrid LLM 之 Gated Attention

Qwen3-Next[1] 发布后,算是真正开启了 hybrid 序幕,原本还想着后面再慢慢补这块,现在看来是不行了,得提前了。好在东西也不多,我们就借着这次机会过一轮吧。

这是第一篇,我们简单点,从 Gated Attention 开始,来自 Paper:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free[2],5 月份的一篇论文了,官方 GitHub[3] 关注的人不多,没想到这就成了 Qwen 新版本的标准配置了。

More

记一次诡异的 FD 泄露:躲在暗处的猴子补丁

本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码:hscspring/fd_leak: fd leak caused by monkey patch.[1]

引子:线上服务频频告警,一切迹象都指向了再常见不过的 FD 耗尽问题。然而,这次的排查之旅却像一场侦探游戏,线索若隐若现,真相几度反转。最终,我们揪出的元凶竟是一个“躲在暗处”的猴子补丁(Monkey Patch),而触发它作案的,则是一两行看似人畜无害的导入语句

More

GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走

上一篇 GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归 | Yam[1] 中,我们重点分析了 GSPO 和 GMPO 这两个非常相似的与 token 级别有关的优化算法,它们瞄准的是重要性比率。本文要介绍的 GTPO 和 GTPO(哈哈,两个撞名了)则是瞄准了 token 粒度有关的的梯度和优势/奖励,而且两者都重点关注了“熵”的作用。值得注意的是,虽然瞄准的是梯度和优势/奖励,但与OPO[2]AAPO[3]BNPO[4] 不同,关注到 token 粒度。

More

GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归

关于GRPO的优化,我们已经介绍过多篇文章(可以看这里[1]的小汇总)了。其中,比较有名的是DAPO[2]DrGRPO[3],而且,后者的两个发现(长度偏差和难度偏差)与前者的其中两个发现(Token级别损失和动态采样)是比较类似的,只是做法稍微不同。我们不妨看一下最终的损失函数。

DAPO的s.t.和DrGRPO的where处对应,当然我们特别想提的是大括号前面的部分——Token Level的计算逻辑。

More

群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

8号一大早出门团建,赶路过程中看到群里X哥来了句“5感觉有点难评”,H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏,我理解本来5应该预想是全模态模型”。是的,没错,今天凌晨GPT-5发布,反响不一,但总体来看好像并没有达到大家的预期。至于大家的预期是什么,那肯定不一而足,不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router,这显然是不能让绝大部分人满意的。

注意!注意!注意!本文观点一家之言,如有不当之处,恳请读者批评指正!

More

关于gpt-oss那些值得关注的点

OpenAI终于开源了,无论如何,他们的一举一动总是会受人关注的。第一时间阅读了技术报告,乍一看好像没什么,而且好像有大量安全方面的内容。不过仔细阅读后,还是发现有一些不一样的细节。

More