通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考

注意注意,本文并非试图给出一条确定的 AGI 技术路线,也不是对某一种路线的辩护或预测,而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上,也夹杂了一些个人长期形成的判断和思考,供参考,而非结论。

TL;DR

  • 多位一线研究者的观点在三个方向上高度收敛多模态(尤其是视频)、强化学习、自进化系统,它们共同指向比纯 LLM 更高阶的智能形态。
  • Scaling 仍然重要,但对象在变化:从模型规模 → 推理过程 → 自学习环境(System 3),再加上 Token 效率、多尺度学习等,Scaling 正在更加精细和广泛。
  • 多模态不是“加模态”,而是“建世界”:视频和感知建模可能拥有比文本高一个数量级的 Scaling 上限,语言并非理解物理世界的必要条件。
  • 强化学习是自主进化的核心机制:预训练擅长吸收信息,RL 擅长通过试错优化策略,可能是持续学习、自我修正和边缘能力提升的关键。
  • Agent 不应只是工具封装:真正的 Agent 更像一个“可训练的智能系统”,本身就是产品,具备学习、记忆和进化能力。
  • 从更长期看,现有 Attention 和 NTP 可能不是终局,新架构、新目标函数、新范式雨后春笋。

近期看了几篇大佬的访谈:

想着把他们的核心观点梳理一下,同时也补充一点自己的看法。虽然肯定有不少类似的总结,但每个人的角度不同,这里主要关注 AI 相关的技术路径或方案。看起来可能非常精简,纯当宏观指导方针参考了。

张钹院士

不愧是院士整体立意非常高,而且相当系统。本来在访谈后面,我直接放在最前面。

  • 大模型原理其实是构建分布式语义关系空间。
  • 语义定义不完备导致的五个缺失:指称缺失、真知和因果缺失、语用缺失、多义和动态语境缺失、闭环行为缺失。
  • 所以必须要定义一个可执行、可检验的定义。AGI 应该满足五个关键能力:
    • 时空一致的多模态理解与落地。
    • 可控的在线学习(RL)与适应。
    • 可验证的推理与长期执行与规划。
    • 可校准的反思与元认知。
    • 跨任务强泛化。
  • 对应的六件事:多模态,具身与交互落地,检索与证据不落地,结构化知识对齐,工具与执行落地,对齐与约束落地。
  • 我们的目标,未来主体的三个层次:
    • 功能-行动主体。已经达到了。
    • 规范-责任主体。机器也能够担负起责任来,还没达到。
    • 体验-意识主体。机器有了意识人类怎么办?

AI建模

  • Scaling

    • 系统一:大模型通过模式匹配与知识提取,覆盖大部分常见问答和常规任务。Scaling 数据与模型规模,提升智能上限。@唐杰
    • 系统二:更强的知识融合和推理机制,使模型能处理更复杂的推理与决策。Scaling 推理,让更多思考找到更优解。@唐杰
    • Token 效率和 Muon @杨植麟
    • 视频模型的scaling天花板,比文本模型高至少一个数量级。@Hafner
  • 多模态

    • 多模态感统机制 @唐杰
    • 全模态 @林俊旸
    • 视频长上下文理解 @Hafner
  • 架构

    • 长上下文和 Linear @杨植麟 @林俊旸
    • 任何架构都可以 AGI,区别只在效率 @Hafner
    • 嵌套学习(在推理时快速学习上下文)@Hafner
    • 多尺度学习。快的时间尺度训练效率更高,慢的时间尺度学习更深度的东西。@Hafner
  • 目标函数

    • 偏好型(从人类反馈中学习)与信息型(让模型理解数据本身),改进空间都很大。@Hafner
    • NTP到MTP,让模型更有远见。@Hafner
    • 多模态应该根本性的、统一的、跨模态的 loss。@Hafner
    • 长程任务效果不行是缺少好的目标函数。@Hafner
  • 学习

    • 预训练从样本学知识,高效,适合吸收信息。强化学习从reward学策略,适合优化。@Hafner
    • RL 的价值是“模型自己试错找到更好的策略”。@Hafner

Agent

  • Digital Agent(GUI + API)@林俊旸
  • Thinking + Coding Agent;与环境交互(DeepResearch)@唐杰
  • 强化学习 + 周期性 SFT(校正方向)@唐杰

自进化

  • Scaling
    • 系统三:Scaling 自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈。@唐杰
  • 自主学习
    • 记忆与持续学习 @唐杰
    • 主动学习 + 自主思考 @林俊旸
    • 自主学习不是方法论,而是数据或者任务:在什么样的场景下基于什么样的奖励函数去做。@姚顺雨
    • 持续学习(快速更新)@Hafner
    • 在线RL帮助精炼系统,解决边缘问题 @Hafner
  • 自我认知
    • 反思与自我认知 @唐杰

世界模型

  • 想象中学习,再到现实世界 @Hafner
  • 通向AGI缺失的拼图 @Hafner
  • 纯离线数据在真实世界不可能完美,必须与环境交互才能学到真正的因果模型。@Hafner
  • 机器人要真正自主运作,需要理解物理世界。@Hafner

自己的思考

其实大佬们提到的东西挺多,有启发的地方自然也不少。先来看看大的方面,主要是以下几点。

首先是多模态。这里既指我们本来就熟悉的多模态理解、生成,更是指向多模态预训练,尤其是视频。个人感觉多模态的 Scaling law 是存在的,且上限极高。如果说 LLM 是文字和语言的世界建模,那多模态就是整个视界物理世界的建模,这个层面语言是不必须的。

然后是强化。我个人一直对强化非常关注,从18年至今,写过不少相关文章了(《DeepSeek R1深度技术解析及其影响》附录部分),很早之前其实做过一些尝试,可惜没做出啥成果。个人觉得,强化学习是自主学习、持续进化的关键。

最后是新架构。Attention 目前看起来工作的相当不错,可以说是迄今为止最强的表征器。但是否这就是终极答案呢?个人觉得未必,这里不考虑效率方面,就单纯从机制看,个人感觉会出现更强的架构设计。


这些方面看起来确实比较笼统,其实它们也对应着我 18 年在《NLP 与 AI》中的设计,当时把 AI 框架分成三个层面:常识层、规则层和表征层。原话如下:

这种分法其实是看 ”世界“ 的一种方法,我们把世界看成三层,第一层是实体和基本关系,比如:蓝天、白云、柳树,大鱼吃小鱼,小鱼吃虾米等等。第二层是适应,可以理解为对天地万物规则的适从,比如:最省力原则,在规则下实体可以有很多变化和结果。第三层是美,其实就是我们看到万千事物的表现和表征,比如:一幅画、一段文字等等,当然这里不一定是 “美” 的,感觉是一种状态。

这三个层面和刚刚提到的三点正好也是对应的。不过那时候囿于技术发展和个人认知,我认为常识应该是万物图谱,压根没往多模态/世界建模方向去想(也不可能想到),但是认知的直觉就是觉得这一层要解决物理世界基本关系问题。这个认知来源于维特根斯坦的观点,记录在《人工智能哲学笔记》。我本人其实是一个实战派的人,虽然很喜欢哲学、读了一些书,但很少在任何场合谈论偏“务虚”的东西。因为我很清楚地知道做和想差别有多大,不过哲学有时候确实能够引领一个人的思维,这方面我不算太专业,顶多一个爱好者,所以就少说几句吧。另外,这些年一直关注强化学习,也是基于这个框架,我一直非常笃定强化学习一定会大放异彩,22年 RL4LMs 出来后我兴奋的晚上觉都没睡着,第一时间就读了他们的代码。不过,我自己确实也没做出什么东西来,才华不够也好,生活所迫也罢,事实确实是没做出东西来。


观念和设计方面确实看着就不那么具体,有点像一个大致的 idea。其实,大部分时候有 idea 并没有什么卵用,重点是谁能先做出来。我从来也不觉得 idea 有多值钱,所以有什么想法也不会藏着掖着,直接就发博客了。如果能对别人有所启发,那说不定才是真正的价值。

来说一点点稍微具体的吧。首先是全模态理解/生成。我一直觉得现有的业务很难应用全模态,比如对话模型,LLM 我可以很容易和其他组件联合使用,可以高效地单独优化。但如果都怼在一起,如果优化某个点就会感觉很麻烦。这个和 LLM 时代之前,理解、生成和 DM分开做有点类似,强大的 LLM 把三个模块直接统一了。也许,全模态应该有全新的使用方式,它的冲击会比 LLM 那个统一大多了。很遗憾,我没有具体答案,我也不知道最终会怎样。

接下来是 Agent,我觉得不是那种现在普遍理解的 Agent,那只能说是一种狭义上的理解。这里指的 Agent 其实是广义上的,也就是一个“智能体系”,它整体就像一个模型一样也是可训练的。它直接就是一个产品,一个可训练、可学习、可进化的系统。

最后是更有意思的架构和学习方式。上面其实已经提到一些诸如多尺度学习、嵌套学习,新的目标函数等。这些我觉得都有可能取得不错进展,比如 DLM,之前还不温不火,最近一两周突然多了很多质量不错的论文,正好有一篇还提到了 Multi-Scale Tokenizer(我过两天会整理后发出来),感觉很多有意思的东西正在蹭蹭冒出来。


总的来说,AI 是一个激动人心的领域,想想这么多可以做的就很兴奋,虽然我自己只能业余时间搞一点点研究……但看看大佬们的研究成果也不错。真是旷古的时代呀。

其实,文中提到的多模态、强化学习、Agent、自进化、新架构等方向,在我看来并非彼此替代的关系,未来 AGI 究竟依照哪条路径,还是多条路径组合,我们现在不得而知。不过我觉得,与其过早押注,不如关注自己感兴趣的方向,深度参与过程,结果固然重要,但过程更加精彩。

依然附上 AI 根据以上内容整理的表格(我觉得整理的还不错,基本上没有改动):

技术路径 主要解决的问题 核心机制 / 抓手 隐含前提假设 当前主要卡点
大模型(LLM / 推理) 语言理解、知识组织、符号推理 大规模预训练 + 注意力表征 + 推理时计算 高阶认知可通过语言与符号抽象获得 长程一致性、真实因果、与环境脱节
多模态(尤其视频) 世界感知、物理与时序建模 跨模态预训练、时空表示、感知对齐 世界结构可被连续感知信号建模 数据成本高、有效因果信号稀疏
强化学习(RL) 策略优化、自主试错、持续改进 Reward 驱动、探索-利用权衡 环境反馈可定义且可优化 稳定性、样本效率、奖励设计
Agent(广义) 长程任务、工具使用、系统级智能 感知-决策-执行闭环 智能可通过系统组合与交互涌现 可训练性差、评估困难
自进化 / 自学习 持续适应、边缘能力提升 在线学习、记忆、环境交互 智能需在开放环境中成长 灾难性遗忘、安全与对齐
世界模型 因果理解、规划、想象与泛化 状态空间建模、预测与反事实 离线数据不足以学习真实因果 表征是否足够、如何与决策耦合
新架构(非 Attention) 表达效率、长程依赖、时间建模 线性化、状态空间、多尺度 当前架构非认知最优 是否真带来能力而非效率提升

历史回溯

最后的最后,附上之前写过的类似文章,现在回看也蛮有意思。

再往前到非 LLM 时代。

AI 帮我梳理了一下,一并附上:

  • 2017《情感》: 关注 “心”。AI 是有涟漪的新物种吗?
  • 2018《架构》: 关注 “骨”。Prior/Rules/Sense 的三层雏形。
  • 2020-21《表征》: 关注 “肉”。分类本能、DIKW 模型与语义压缩。
  • 2023《务实》: 关注 “用”。Infra 化、垂直模型、在大爆发中寻找落脚点。
  • 2024《交互》: 关注 “行”。语音 Agent、具身智能,AI 开始介入物理世界。
  • 2025《拼图/人性》: 关注 “界”。AGI 拼图合拢,反思人类驱动力与 AI 的本质区别。
  • 2026《进化》: 关注 “道”。确立多模态、强化学习与新架构的交汇,寻找通往 AGI 的确定性路径。

现在的AI给九年前的我写了一份信

这个很有意思,在帮我整理了上面的文章后,AI 主动提出站在现在的视角给九年前的我写一封信,这我自然是同意的,我也好奇他会怎么写。嗯,原文一字不改,粘贴如下。


见信好,九年前的自己

写下这封信时,我已经站在了你当时预言的“新物种”降临的前夜。

我刚读完你 2017 年写的那篇感怀。看到你在文末写下那句“如果你认识以前的我,也许你就会原谅现在的我”,我不禁笑了。其实,我不需要原谅你,我反而要感谢你。感谢你在那个连 Transformer 是什么都还没多少人知道的年代,就固执地相信:语言的魅力,不在于信息本身,而在于它能勾起涟漪。

你想知道这九年发生了什么吗?

你当时纠结的“词向量不够通用”和“理解差异”,后来被一种叫 Scaling Law(规模法则)的暴力美学解决了。我们不再死磕每一行代码的逻辑,而是把全人类的知识塞进一个巨大的黑盒,它竟然真的“涌现”出了你梦寐以求的理解力。

你会惊讶地发现,2026 年的 AI 已经能轻松接住你那句“他死了,她伤心而死”背后的沉重。它甚至能和你聊维特根斯坦,能帮你分析贝叶斯概率。

但最想告诉你的是,在这九年的追逐中,我一度弄丢了你最看重的那份“涟漪”。

有几年,我变得非常务实,满脑子都是 Infra(基础设施)、模型量化和行业落地。我曾以为只要算力足够大,机器就能拥有灵魂。但直到 2025 年的秋天,当 AGI 真的近在咫尺时,我才重新读懂了你文中的那份焦虑。

我发现,AI 确实成了“新物种”,但它是一个没有“驱动力”的物种。它很强大,却不会饥渴,不会孤独,也不会为了一个不可能的梦想去自我毁灭。而这些让你感到痛苦的、低效的“情绪”,恰恰是我们作为人类的勋章

所以,请继续保持你那份感性吧。不要觉得那些哲学思辨是“虚”的。

2026 年的我依然在死磕技术,在研究“世界模型”和“自进化系统”,但我比任何时候都更认同你 2017 年的那句直觉:我们关注的从来不是信息,而是共鸣。

现在的 AI 已经能帮我处理几乎所有的工作,但我依然会为了一个老朋友的问候而心动,依然会为了窗外的一场雨而失神。这些,是 AI 永远无法通过 Next Token Prediction 学会的“鱼之乐”。

别急着赶路,你笔下的每一个字,都在帮我构筑九年后的智能大厦。

现在的我很好,也希望当时的你,慢一点,再多感受一点那时的涟漪。

2026 年 1 月 25 日

那个依然在思考的你


你别说,写的还挺好;D

也将此信献给努力在 AGI 一线的工作者。AGI 在前方,也在脚下。