群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

8号一大早出门团建，赶路过程中看到群里X哥来了句“5感觉有点难评”，H哥来了句“感觉有点失望”。X哥接着补充“我感觉o系列有点打乱openai本来的节奏，我理解本来5应该预想是全模态模型”。是的，没错，今天凌晨GPT-5发布，反响不一，但总体来看好像并没有达到大家的预期。至于大家的预期是什么，那肯定不一而足，不过就发布的内容来看——一个正常的LLM、一个推理模型和一个动态router，这显然是不能让绝大部分人满意的。

注意！注意！注意！本文观点一家之言，如有不当之处，恳请读者批评指正！

全模态

接下来自然围绕着这个话题在群里展开了讨论，X哥说预想是全模态模型，H哥也是这样想的，恰好我在之前也是这样预想过。不过由于2024年搞了一年语音多模态，之后就很清晰地认识到——端到端多模态太难搞了（最近的一篇是《从Voila看语音端到端发展 | Yam^[1]》）。这个难主要是多模态在同一语义下可能的表示太多。拿语音举例，虽然有时候同一文本在不同语境下语音可能不同（比如有某种情绪），但大多数文本在大多数情况下其实在语义上是一致的，但是不同的人说出来就有不同的特征，这就导致语音端到端“效率”不高（相比文本）。

一个LLM训练需要那么多文本，同等情况下语音需要的Token数得成千上万倍，效果说不定还不如纯文本。所以，目前大多数端到端语音（也就是常说的OMNI）还是走Adapter模式，语音先转为一个语义Embedding再输入LLM，或者在Token化时把语音和语义部分分开，用语义部分Token和LLM的文本Token在语义空间对齐。其实语义部分的Token完全可以等价于ASR后的文本Token，这样就做到LLM为主架，兼容掉语音。这样的思路虽然不是像LLM这样的完全端到端，但也算是一种折中方案。

GPT-4o支持实时语音通话（据说是端到端），那GPT-5不用说，肯定也是端到端的吧？当然，他们之前提供了端到端和pipeline两种API，不知道发布的版本到底是怎么做的。其实除非少量情感相关场景，大部分时候语音中的非语言信息是无关紧要的，文本还有大量问题没有解决呢，多模态事倍功半又怎么能更好呢。

那端到端全模态还会不会继续研究呢？个人觉得还是会的，甚至还会继续出现各种各样的优化（其实现在已经是了）。多模态肯定是一个很重要的方向，但很难说是决定性的方向。这里面最重要的问题是怎么解决多模态输入到“思维”之间的映射，也就是说从“看见听见”到“理解”的这个过程，大部分创新也是围绕着这个点进行的。

推理模型

说完“全模态端到端太难了”，X哥接道：“没有o系列，我感觉大概率应该是这个，o系列感觉真是一个意外”。好，我们转到o系列，关于这个系列我自己了解的不多，但是确实收藏了很多相关文章，尴尬的是大部分都没看（放到附录部分）。只隐约记得大家好像都猜测MCTS（Monte Carlo Tree Search），本来想着好好学习一波的，结果R1发布了！直接把o系列打了个措手不及——大家全部去搞GRPO了，o系列的热度直接凉了。不过我们搞技术的还是可以去研究一下子的，技术会过时，但思想和设计一般还是能坚挺。

现在我们很清楚，RL之所有能有用核心还是Base，当然它释放能力的作用也不容忽视，毕竟，那种感觉，谁训过谁知道——说是神奇也不为过。于是，大批量成吨的优化来了，大家可以看博客历史文章，这里不再罗列了。

值得一提的是，GRPO下大家也不止搞推理模型，不推理的也搞起来了。推理模型中的这个“推理”的边界也越来越模糊了，不过大部分时候，带推理过程都能提升一定效果。至于这个提升到底是来自训练时的“带推理的高质量数据”呢，还是说模型真的学会了“推理”？感觉上是不是都有？看起来好像是模型使用“某种模式”能带来提升。感兴趣的读者不妨阅读这篇文章：Reasoning models don’t always say what they think^[2]，和这篇On the Biology of a Large Language Model^[3]的Multi-step Reasoning部分。

其实推理模型最有意思的是Long2short，我们最早在《LLM、强化、蒸馏讨论 | Yam^[4]》讨论过，简单来说，就是模型内部自动能够根据上下文确定是否需要“推理”。又是收集了一波相关paper，看了一些，不过还没开始整理（也放在附录部分了）。总之，目前还没有看到特别满意的方案。Qwen3这种硬编码的方式当然是最直观的，也比较工程化（哦还有GPT-5），但并不是我们心目中理想的方案。不过话说回来，“理想方案”毕竟是理想，“根据不同上下文自动决定是否推理”这里的核心不是推理，而是“自动决定”，那模型根据什么自我决定？如果只是数据层面的方案那估计还是略显表面。这时候就不得不提“世界模型”了，这也是个人觉得下个突破的基础。

世界模型

X哥说，世界模型现在感觉都还有点虚，他还是比较期待在小模型上探一探全模态，或者说小模型的发展。确实如此，个人心目中的世界模型不只是对世界知识进行建模（现有LLM已经一定程度上有了），更重要的是知道自己“知道或不知道”（这样才能真正自我决定是否需要推理）。后者多少有点自我意识的意思了，个人感觉两个方向应该会同时前进。前段时间OpenAI的模型在IMO上拿下金牌时不是“坦率”地说自己不会第三题么（出处^[5]在这里），恰好之前有Anthropic的这么个研究：Language Models (Mostly) Know What They Know^[6]。虽然效果还没有那么理想，但至少这是个很好的开始，目测LLM会朝这个方向继续深入优化。

正好，X哥接着补充：“这个我觉得其实通过强化还好，设计一个拒识字符，强化上面反复用评价模型对回复幻觉之类进行设计。其实这东西当初我们用sft也能激活，就是sft很难控制拒识范围”。仔细想想确实如此，这本质上是“learning from data”，从机器学习开始（我记得是一本书）就一直有效。

值得一提的是，这里所说的世界模型并不是带Agent环境的那种具身智能的“世界模型”，而是能够接收各种来源的输入，并对这些输入有一个比较全面、基本的认知，知道哪些是“对的”，哪些是“不对”的，对或不对的判断依据是模型已有的认知。另外，虽然世界模型看起来应该是多模态的，但其实核心是“理解”——对接收到的输入的理解——不仅仅是语境上下文理解，还包括基于整个认知的理解——就像人类一样。恰好Anthropic还有一篇Tracing Model Outputs to the Training Data^[7]，主要结论是：“小模型依赖具体词句，大模型则展现出更抽象的理解能力”。“抽象”不正是“智能”的表现吗！

总的来说，虽然现在的大模型通过大量数据貌似已经构建出一个“世界模型”，但个人觉得这个方向还不够，或者说大家没有去“刻意设计”，目前的”世界模型“更像是LLM训练完成后自然而然产生的，我们对其内部究竟如何还没有完全理解。Anthropic在这方面做了蛮多工作，感兴趣的读者可以阅读Research^[8]，而且他们还开源了一个工具：safety-research/circuit-tracer^[9]，用于分析模型内部机理。

实时学习

“世界模型”搞定后，接下来要解决的是实时学习（持续学习）的问题。按照人类学习的思路，就是根据新的信息不停地构建自己的认知，调整对不同知识的信念（经验主义+贝叶斯主义）。X哥同样觉得在线学习是一个大点，RJ提问：“之前听到个说法，目前的模型没有loop，很难通过内部的反馈学习，你们怎么看？”X哥表示：“感觉更多是每次单样本调整范围不知道，我们希望单样本只调整其对应的知识部分，但实际可能大动。另一个是对错误样本拒识能力也一般。本质上是现在的反向传播对于每次梯度迭代的大小其实已经是启发式的了。不是通过对单样本充分学习而是希望通过大数据近似逼近，这就导致全量训练其实还行，在线学习就很难”。

对X哥的观点我深表认同，并分享了强化学习之父的一个分享：Dynamic Deep Learning | Richard Sutton - YouTube^[10]（中文文字版：强化学习之父 Rich Sutton 最新演讲：用「去中心化神经网络」应对深度学习局限性^[11]，pdf^[14]），里面提到了一个“去中心化神经网络”的概念，核心理念是赋予每个神经元独立的目标。同时，还提出了一个持续反向传播算法——通过在每轮反向传播中，根据神经元的活跃度选择性地重新初始化部分神经元，从而提升模型的灵活性和学习效果。这个是我目前看到最有可能做到实时学习的设计，当然我自己对“在线学习”了解不太多，不知道是不是还有其他更好的方案。说到这里，顺便提一个之前看到的另一个有意思的研究，来自前达摩院、前DeepSeek的罗福莉大佬的：极简单但贼有效的Fine-tuning算法，几行代码最高涨点8% - 知乎^[12]。主要思想是：在Fine-tuning过程中仅更新预训练模型中部分网络的参数（根据伯努利分布随机mask掉一部分grad不更新）。虽然这个针对的是Bert年代的预训练模型，但想法很是精妙，和这一part也有点关系，顺带记一下。

X哥还提到“我觉得强化微调是挺好的路子，毕竟强化对样本的利用率高，但目前应该更多是用在base已有知识的情况”，也是我非常认同的一点，关于RL本博客说了太多了，这里不再赘述，感兴趣的读者自由翻阅博客，也可以关注我之前创建的 RL+LLM+NLP 相关研究收集的仓库：hscspring/rl-llm-nlp: Reinforcement Learning in LLM and NLP^[13]。关于反向传播，H哥提到：“感觉只要是反向传播的方式，很难实现真正的在线学习”，他认为“目前的模型修改一点参数就可能导致雪崩，我们也没法定位具体的神经元，就算定位到了，还存在知识共享的情况，感觉人类大脑的分区比较好”。确实如此，反向传播太重要了，目前还没有找到合适的替代算法。

D哥提到“在线学习其实是知识编辑”，X哥进一步明确：“在线学习应该分好几类，一个是纠正底层知识，一个是泛化，一个是错误知识拒识”。不过总的来说，还是不好做，处于探索阶段。不过大家倒是一致感觉「现有的预训练和Scaling好像也就那样了」。不过要是做好世界模型和实时学习，那AI一定会进入到下一part，离AGI更进一步。

说到了学习，我补充了一点：“现在的模型对「学习」这个概念的应用还是太狭隘了”，X哥回复：“还是大数据近似分布，本质上现在是样本利用率其实很低，通过大量同类数据来做近似逼近，人对于单样本利用率就比模型高太多了”，H哥回复：“人和现在deep learning的学习差异太大了”，D哥回复：“模型基于长期训练能做icl，和人成长几十年做样例的经验泛化差不多吧。刚刚说拒识的时候，我就在想，人大概也不知道自己的幻觉，比如我以为我懂了，但是其实没懂，有一些似是而非的概念的混淆”。虽然我觉得ICL本质上就是模仿，不如TTS（Test Time Scaling），但不得不承认，模仿学习也是学习，只不过ICL不涉及参数更新，算不得我们所想要的“学习”。不过“人不知道自己的幻觉”那是一定的，只不过我更想说的是本节一开始说的“根据新信息调整知识信念”的问题，人类在调整信念时既有新的外部输入，但更关键的是已有的内部思考判断。另外，关于学习，人类除了知识学习，其实还有行为学习。也许世界知识建模+外部刺激+知识反思就是AGI的一种形态。

小结

本文基于一次微信群讨论，从全模态到推理模型，到世界模型，最后再到实时学习，感觉每一块都有大量的优化提升空间。不过目前来说这些都相对不那么成熟，X哥判断后续传统思路应该是一条走全模态，另一条走agent多模型（有点演化、蚁群的意思）。当然，同时还应该加上RL，这些方向应该会齐头并进，全频段靠近AGI，拭目以待~

References

[1] 从Voila看语音端到端发展 | Yam: https://yam.gift/2025/05/14/MM/2025-05-14-Voila-and-OMNI/
[2] Reasoning models don’t always say what they think: https://www.anthropic.com/research/reasoning-models-dont-say-think
[3] On the Biology of a Large Language Model: https://transformer-circuits.pub/2025/attribution-graphs/biology.html
[4] LLM、强化、蒸馏讨论 | Yam: https://yam.gift/2025/02/27/AI/2025-02-27-AI-Discussion/
[5] 出处: https://x.com/alexwei_/status/1947461238512095718
[6] Language Models (Mostly) Know What They Know: https://arxiv.org/abs/2207.05221
[7] Tracing Model Outputs to the Training Data: https://www.anthropic.com/research/influence-functions
[8] Research: https://www.anthropic.com/research#interpretability
[9] safety-research/circuit-tracer: https://github.com/safety-research/circuit-tracer
[10] Dynamic Deep Learning | Richard Sutton - YouTube: https://www.youtube.com/watch?v=75jr5E4OzEE
[11] 强化学习之父 Rich Sutton 最新演讲：用「去中心化神经网络」应对深度学习局限性: https://mp.weixin.qq.com/s/Zfqh8XC1xIo5EMqv-5WPEQ
[12] 极简单但贼有效的Fine-tuning算法，几行代码最高涨点8% - 知乎: https://zhuanlan.zhihu.com/p/428263027
[13] hscspring/rl-llm-nlp: Reinforcement Learning in LLM and NLP: https://github.com/hscspring/rl-llm-nlp
[14] Decentralized Neural Networks: http://incompleteideas.net/Talks/DNNs-Singapore.pdf

长琴

知乎：长琴 | 公众号：技术与人

群聊中的AGI拼图：GPT-5发布后关于全模态、推理、世界模型与实时学习的思考

全模态

推理模型

世界模型

实时学习

小结

References

附录

o1相关

Long2short相关