关于AI前沿的思考

上一次写关于类似（大语言模型）的思考是在去年10月份了，主要是关于LLM机理、预训练、微调等算法层面的思考。不过后面也提到了未来的方向，以及行业的思考。到今天看那些内容依然实用，而且有种“预判”逐渐成真的感觉。其实我个人很不喜欢预言、预测或诸如此类的事物，但当我们对一个行业了解的足够多、足够深时，很多时候对一些方向性问题的判断就会比较准确。

言归正传，今天正好看到了OpenAI前首席研究官Bob McGrew采访（中文版），又有了新的想法，正好也谈一谈最近的一些思考。主要围绕着采访中的主题，谈谈自己的看法。

LLM

LLM的上限

第一个大的主题依然是LLM。上来的问题就是：“它的上限在哪里，或者说目前有没有遇到瓶颈。”Bob的回复主要是两个方面：计算量和强化学习。

强化学习的作用和重要性我在之前很多博客里都提到了，我将其理解为“规则”的学习，这种规则非常抽象，是一种“演绎”，一种“适应”。说到这里，顺便加一句，我个人一直没有关注过DPO，就是觉得它和PPO不在一个维度上，没有可比性。当然，我更加认同PPO的设计思想。据说DPO一直被排在强化学习之外；D。

关于计算量，Bob提到了o1的计算量，不过这里没有展开说o1，只是说预训练需要大幅增加计算量（更多显卡，更多数据）。这点是毋庸置疑的，Scale law 依然那么有效。

不过后面说到o1，Bob给了我新的启发。

在这之前，我一直认为o1仅适用于有限的场景，因为它的目标是解决复杂的问题（事实上，Bob也是这样认为的，他说除了程序员，大多数人日常工作中并不会遇到需要o1的需求）。我们知道，复杂问题往往可以通过拆解成一系列子任务完成。这有点像Agent，事实上，Bob也是这样认为的，他认为o1不仅是思考问题，还包括制定和执行规划。这可以说成是（被滥用的）Agent，但Agent这个概念又不能完全代表o1。关于这点我们观点一致。

但我没有想到推理方向（可能也和自己没有真正用过o1有关）。Bob提到GPT-4o有几秒钟的思考时间，o1是30秒到几分钟，甚至延伸到几小时或几天。这种被他称作“扩展”的变化，其实是把“学习”后置，我们可以把这个过程看成是模型自己补充上下文的过程。这又和奥特曼在此前一次访谈（蝴蝶书第一章最后也提到了这次访谈）中说提示词会消亡的看法一致。o1的价值就在其扩展性，它开始会更多地“思考”，而不是“记忆”。它和强化学习的结合应该会是一个不被很多人重视（或看到），但很有可能带来下一次革命的组合。

LLM的应用

回到实际应用，这里要说的比较多。我们先说Bob的观点。

LLM看起来就是一把锤子，它可以做非常多的任务，但是最紧迫的是可靠性问题。我们想让AI帮忙完成任务，但万一中间犯了错误或偏离了任务，那后果在某些场景下可能非常严重。而根据可靠性法则，可靠性每提升一个9，计算量要提高10倍。

除了可靠性，接下来就是真实场景中复杂的上下文。这个上下文可不是我们平时以为的提供给LLM的外部知识。它甚至包括与此相关的所有企业内部环境，比如你的同事有哪些？正在进行什么项目？代码库是什么样的？之前尝试过什么？大家喜欢什么不喜欢什么？这么复杂的上下文就需要配到的数据集成方案。

另外还提到了计算机代理，可以理解为新一代“PC”，它的交互方式可能会发生变化，“操作系统”可能会默默在后台做非常多的、复杂的事。而且它会被设计为“通用”的，就像现在的电脑一样，默认可以完成很多工作；但你也可以购买后进行定制。这两种方案应该会并存。而且，计算机代理也会遇到无法解决的问题，这时候可能需要具体的程序化方法。总的来说，Bob认为在相当长一段时间内，会看到多种方法并存。

说完Bob的观点，来谈我们自己的。

可靠性问题我觉得没有太多可说的，现在的一个趋势是把“人”放到过程中，LLM不断输出结果让人类确认、提供反馈，以供下一步继续执行。这种交互方式必然催生出新的产品和应用，它会逐渐颠覆掉我们现有的产品和应用设计，以后都得以LLM为核心。这一过程可能比较缓慢，新老交替的时间可能比较长，但大的趋势不会变。

然后是复杂的上下文，这个只要是在做刚刚说的这件事就一定能明显感受到。我很快想到了这几天看的一篇阿里智能化研发一年的复盘文章，里面提到了几个问题：比如即使在非常垂直的需求也很难完全自动化，他们认为对需求的理解和描述不足是阻碍大模型落地的重要原因，认为**目前大模型落地比较好的反而是那种不需要描述需求的场景。**这点和Bob说的真实场景的复杂上下文是一个意思。其他几个问题包括：过早的拔高了用户期望而很多场景实际无法落地带来的负面影响；没有解决好工程上下文问题，也没有解决好业务上下文问题；忽略了“人”这个关键要素；平台间信息整合程度不足，无法整合用户的操作行为和意图等。可以看到，相关的数据基础设施（以及其他配套）、交互都是未来要应用大模型时重点关注的，这是一个漫长的改革过程：旧的逐步淘汰、新的重新整合、使用习惯调整，甚至思考的方式也要跟着调整。以大模型带动全方位的变革。

最后我们不谈计算机代理，这肯定也是一大趋势，真的是一切都在更新换代，且都以大模型为中心。我们重点说说多种方法并存。ChatGPT刚出来时，我就感受到了算法职业的危机（可以看这篇文章），现在观点依然不变。未来应该只会保留少量算法职位，他们将负责大模型以外的其他方法。当然还有更少量的职位，用来继续推进AGI研究。以现有LLM的实力，基本能解决80%的问题，有时候甚至是90%，但后面这10%恐怕只靠LLM就不够了。这点我们在工作中深有体会，再强的LLM也无法解决所有的Case；如果再考虑到效率、成本的话，可能LLM只能用到80%。目前看来，这种趋势会持续很长一段时间。如果再考虑到新老交替和传统企业的滞后性，估计会持续相当长（可能几十年）的时间。

多模态

我从2024年初开始从文本转到了多模态，其实图像和语音的融合已经相对成熟了。但视频，众所周知，现在还相当不成熟，而且还相当贵。不过Bob本人对此比较乐观，他甚至觉得两年内AI就可以创作出人们真正想看的电影。对于视频，我本人接触的不太多，不过两年确实过于乐观了些，我觉得可能会被打脸；D

我本人主要做语音多些，在这一年，尤其是第三、四季度，可以明显感受到语音在发力。随着OpenAI OMNI的发布，语音Agent开始成为了一个新兴方向。可以比较确定地看到，2025年将是语音Agent爆发的一年。另外，语音的交互和文本图像不一样，它解放了人类的双手，改变了已有的交互方式。还记得我们上面谈到“交互”吗，交互方式的变革往往会引发一系列的反应，并创造出一系列的新产品和应用。个人目前非常看好这个方向。

当然了，多模态大势不可挡。

具身智能

LLM重新激活了机器人，毕竟脑子是个好东西。

具身智能最大的不同是，AI在肉体上参与到了你的生活中。这个稍微想象一下都不得了。不过Bob对家用机器人持悲观态度，因为机械臂是致命的，这里面有非常大的安全风险。相反，零售和其他工作环境中的应用前景就比较乐观了。Bob认为5年内能看到明显进展，我个人认为不用5年，可能也就2-3年。因为在LLM之前，具身智能就是一个相对独立的研究方向，已经取得了相当不错的研究成果。现在有了脑子，那还不得起飞。也许2026年就是机器人（具身智能）元年，我们等多模态先飞一会儿，让交互更加自然一些。

其他

最后记录一些其他有意思的观点。

AI能自动化具体任务，而一份工作是由多个任务组成的，大多数工作中都存在一些无法被自动化的任务。
任何需要无限耐心的业务领域（比如比价、咨询）都很适合用AI来自动化。
优秀科学家都有一个共同点：坚韧不拔的毅力。他们会将某个问题视为必须攻克的目标，即使需要数年时间也要坚持到底。后面有个彩蛋。
不会有某个突然的AGI时刻，这些问题是分形的，我们会看到越来越多的自动化，但未来可能会很平凡。
解决推理能力是达到人类级智能的最后一个基本挑战。现在剩下的主要是规模化的挑战，这是一个系统问题、硬件问题、优化问题、数据问题。所有的问题本质上都是关于如何扩展。
从一个智力是稀缺资源的世界转向一个智力将变得普遍且免费的世界，主动性（能够主动去做事情的能力，比如确定正确的问题和值得追求的项目。）将成为稀缺的生产要素（因为这对AI来说很难解决）。
无论AI多么先进，这种在具体指导和开放创作之间的张力都会持续存在，因为如何填补创作中的空白将决定最终作品的样子。
只要是需要人类参与的地方，我们都应该思考能否用AI来替代。而且AI可以把原本人类只能痛苦地做一次的任务重复做上百次。

彩蛋

彩蛋1：

Bob在说优秀科学家的共同点时提到：

我永远记得DALL-E的发明者Aditya Ramesh的故事。他想要证明神经网络具有创造力，不是简单的记忆和重组，于是他尝试生成一张训练集中绝对不存在的图片：一只在冰面上滑冰的粉红色熊猫。他在这个问题上持续工作了18个月到两年。记得一年后，Ilya拿着最新的生成结果来找我，那时候还只是一片模糊的图像，他指着图片说"你看这里，上面有粉色，下面是白色，像素正在逐渐成形"。虽然我几乎什么都看不出来，但Aditya仍然坚持不懈。

我立刻想到，如果在国内，估计早就卷铺盖了哈哈哈。

彩蛋2：

OpenAI曾做出了一个艰难但关键的决定：关闭更具探索性的项目，如机器人团队和游戏团队，将重点转向语言模型和生成式建模，包括作为其重要组成部分的多模态工作。

这个取舍令人敬佩。

Yam

Feeling, Coding, Thinking