子非我，安知我不知鱼之乐——AI、人类与意识的边界

TL;DR

AGI已近在眼前：当前的大模型已在多个领域展现出专家能力，其发展因巨大的战略价值（如“知识霸权”）而不可阻挡。尽管Scaling Law遇到瓶颈，但通往AGI的路径依然多样且充满探索。
AI可能是“新物种”，而非“类人”：AI在高级认知上媲美甚至超过人类，但其底层驱动力很可能与人类截然不同。人类的核心目标是基因决定的“更好地活着”，而AI很可能没有这种源于脆弱生命的生存本能。
人类的本能与情感是特质而非缺陷：人类的脆弱、情感和欲望，构成了我们鲜活的体验，是“人性”的宝贵部分。绝对理性、无欲无求的“神化”方向并不可取。
意识与自我认知的谜题：意识的本质或许与“自我认知”密切相关，但 AI 是否需要或会产生这样的“自我”，仍是未知数。
我们为何担忧AI：人类希望AI是“人工”智能，本质上是希望“奴役”一个强大的同类，这种控制欲与历史上对权力的追求一脉相承。但当这个“同类”的本质与我们完全不同，同时还比我们强大很多时，担忧便油然而生。

Reinforce++和它的KL Loss选择

TL;DR

Reinforce++ 通过移除 critic 并在整个 batch 上全局归一化 advantage，解决了 GRPO 对特定 prompt 过拟合和奖励 hacking 的问题。同时也揭示了一个隐藏细节：GRPO 广泛使用的 k3 KL 惩罚项虽保证非负，却引入偏差和不对称梯度；而 Reinforce++ 改用无偏的 k2形式，提升了训练稳定性。

Hybrid LLM 之 Gated Attention

Qwen3-Next^[1] 发布后，算是真正开启了 hybrid 序幕，原本还想着后面再慢慢补这块，现在看来是不行了，得提前了。好在东西也不多，我们就借着这次机会过一轮吧。

这是第一篇，我们简单点，从 Gated Attention 开始，来自 Paper：Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free^[2]，5 月份的一篇论文了，官方 GitHub^[3] 关注的人不多，没想到这就成了 Qwen 新版本的标准配置了。

记一次诡异的 FD 泄露：躲在暗处的猴子补丁

本文记录一次线上服务关于 FD 泄露的 Bug 排查经历。相关代码：hscspring/fd_leak: fd leak caused by monkey patch.^[1]

引子：线上服务频频告警，一切迹象都指向了再常见不过的 FD 耗尽问题。然而，这次的排查之旅却像一场侦探游戏，线索若隐若现，真相几度反转。最终，我们揪出的元凶竟是一个“躲在暗处”的猴子补丁（Monkey Patch），而触发它作案的，则是一两行看似人畜无害的导入语句。

GRPO“又一背锅侠”：Clip的各种拉扯

之前在解锁模型潜能：Reward 数据如何塑造与激发 LLM 的推理策略 | Yam^[1] 中，我们在介绍论文 Spurious Rewards 时提过：“关于GRPO 截断那部分推导和进一步分析也不错，有时间单独择文再议”。本文就来聊聊 GRPO 中的 clip。

GRPO“第一背锅侠”Token Level X2：GTPO双“T”傍地走

上一篇 GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归 | Yam^[1] 中，我们重点分析了 GSPO 和 GMPO 这两个非常相似的与 token 级别有关的优化算法，它们瞄准的是重要性比率。本文要介绍的 GTPO 和 GTPO（哈哈，两个撞名了）则是瞄准了 token 粒度有关的的梯度和优势/奖励，而且两者都重点关注了“熵”的作用。值得注意的是，虽然瞄准的是梯度和优势/奖励，但与OPO^[2] 和 AAPO^[3]、BNPO^[4] 不同，关注到 token 粒度。

GRPO“第一背锅侠”Token Level X：DAPO/DrGRPO与GSPO/GMPO的殊途同归

关于GRPO的优化，我们已经介绍过多篇文章（可以看这里^[1]的小汇总）了。其中，比较有名的是DAPO^[2]和DrGRPO^[3]，而且，后者的两个发现（长度偏差和难度偏差）与前者的其中两个发现（Token级别损失和动态采样）是比较类似的，只是做法稍微不同。我们不妨看一下最终的损失函数。

DAPO的s.t.和DrGRPO的where处对应，当然我们特别想提的是大括号前面的部分——Token Level的计算逻辑。

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

8号一大早出门团建，赶路过程中看到群里X哥来了句“5感觉有点难评”，H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏，我理解本来5应该预想是全模态模型”。是的，没错，今天凌晨GPT-5发布，反响不一，但总体来看好像并没有达到大家的预期。至于大家的预期是什么，那肯定不一而足，不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router，这显然是不能让绝大部分人满意的。

注意！注意！注意！本文观点一家之言，如有不当之处，恳请读者批评指正！

关于gpt-oss那些值得关注的点

OpenAI终于开源了，无论如何，他们的一举一动总是会受人关注的。第一时间阅读了技术报告，乍一看好像没什么，而且好像有大量安全方面的内容。不过仔细阅读后，还是发现有一些不一样的细节。

Blog：Introducing gpt-oss | OpenAI^[1]
GitHub：openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI^[2]
技术报告：oai_gpt-oss_model_card.pdf^[3]
HuggingFace：gpt-oss - a openai Collection^[4]
Demo：gpt-oss^[5]

重识LLM法则：上下文工程与数据进化

周六下午出去日常“漫游”，地铁上看了数据标注公司Surge AI创始人Edwin Chen的访谈和Manus的上下文工程两篇文章，结合自己之前的一些思考，感觉很多东西又串联起来了，突然就想把它们写出来。晚上回来，从23点写到凌晨3点，终于搞定，是有此文。

长琴

知乎：长琴 | 公众号：技术与人