注意注意,本文并非试图给出一条确定的 AGI 技术路线,也不是对某一种路线的辩护或预测,而是有意将多位一线研究者在不同语境下提及的方向进行整理。在此基础上,也夹杂了一些个人长期形成的判断和思考,供参考,而非结论。
TL;DR
- 多位一线研究者的观点在三个方向上高度收敛:多模态(尤其是视频)、强化学习、自进化系统,它们共同指向比纯 LLM 更高阶的智能形态。
- Scaling 仍然重要,但对象在变化:从模型规模 → 推理过程 → 自学习环境(System 3),再加上 Token 效率、多尺度学习等,Scaling 正在更加精细和广泛。
- 多模态不是“加模态”,而是“建世界”:视频和感知建模可能拥有比文本高一个数量级的 Scaling 上限,语言并非理解物理世界的必要条件。
- 强化学习是自主进化的核心机制:预训练擅长吸收信息,RL 擅长通过试错优化策略,可能是持续学习、自我修正和边缘能力提升的关键。
- Agent 不应只是工具封装:真正的 Agent 更像一个“可训练的智能系统”,本身就是产品,具备学习、记忆和进化能力。
- 从更长期看,现有 Attention 和 NTP 可能不是终局,新架构、新目标函数、新范式雨后春笋。