OpenAIGC大赛小结

很荣幸周末参加了第一届OpenAIGC开发者大赛,并担任大赛评委之一。期间收获良多,感慨万千,特记录如下。

专注与理想

第一天主要是分享日,内容并无特别之处,大多偏向于应用层面,依然是熟悉的套路和配方。但给我深刻的感受是,大语言模型已经(不是正在)深入到了各行各业。对大部分各行业创业者和使用者来说,并不太关心大语言模型背后的原理,他们把它当做工具、当做黑盒。因为工具足够强大,之前比较复杂或难以实现的功能,现在可以轻松实现。我看到了很多团队的产品应用,从文本理解、文本生成到图像、视频生成,大多都和自己的业务结合的比较好,是真的利用AIGC赋能产品。

印象最深刻的是必优科技的ChatPPT(chat-ppt.com),之所以印象深刻,并不是因为它们AIGC用的好,而是因为他们此前一直在该领域沉寂了几年。他们是珠海的一家公司,团队是从WPS出来的,几年来一直在自动PPT文档这个领域打磨,他们的定位也一直是如何更好地帮助人们做好PPT。大语言模型的出现让他们突然间爆发,获得了大量用户,以及自然而然的融资。目前产品已经支持Office和WPS插件,PPT图文并茂,效果相当不错。

这家公司令人敬佩的是,他们专注在一个很小的领域,并且一直在坚持做这一件事。即便搭上了这一波的风头,依然保持初心,在和他们创始人聊天中,对方明确表明了这一点。这是个人人兼知的道理,但要做到未必容易,就像炒股票,大多数人依然会栽在追涨杀跌中。也有很多人看到AIGC或算法很火,然后都去搞,结果发现卷的一比,连个工作都找不到。我个人一直秉信,机会一定是等来的,而不是追到的。也就是说,你一直在某个领域积累,即便现在它不行,但它有可能在未来某一天爆火,彼时你的飞起是自然而然的事。相反,如果你在看到它爆火时加入,大概率也只会徒留空叹。

对一家公司如此,对一个人也是如此,甚至,人更加需要专注。一旦选定一个行业,就应该在行业内深扎稳打,一步步构建自己的知识体系和壁垒,等到机会来临时,果断抓住。当然,即便一直没有机会,随着经验的增加,在行业内大概率也不会很差。需要补充的是,一个人可能在不同阶段做不同的事,但其发展主线应当是清晰的。也就是说,人应该要有自己的Big Picture,有使命感,有自己底层所相信和坚持的东西。如果没有,就应该努力去探索和寻找,无论结果如何,这一过程都弥足珍贵。

工程与算法

第二日来到了比赛日,上午是几场分享,印象最深刻的就是关于Semantic Kernel的那场。根据微软官方资料,Semantic Kernel是一个 SDK,它将 OpenAI、Azure OpenAI 和 Hugging Face 等大型语言模型 (LLM) 与 C#、Python 和 Java 等传统编程语言集成在一起,用户可以通过定义插件几行代码就将这些连接起来了。听起来好像比较简单,就是把一大堆功能用代码连接起来对外提供一个简单的接口,以方便人们快速开发AI应用,颇有点微软另一个项目ChatGPT for Robotics的感觉,大量工程上的设计(但并不复杂),将大语言模型作为核心重新改造开发流程。LongChain其实也类似,自己本身并没有多少东西,只是把一些工具拼装一下变成一整套易用的接口。

在此前我个人是非常不喜欢LongChain这一类项目的,一方面是因为个人比较喜欢造轮子,LongChain的功能自己很容易实现,架构和设计上控制感更强;另一方面是这类代码并没有太多真正值得学习的东西,大概率也就是某位程序员的风格罢了,与其花时间熟悉其接口,个人完全有能力重新写一套了。不过Semantic Kernel这个项目给我敲了一个警钟——当组装复杂到一定程度时,里面的工程化思维就值得借鉴了,因为此时个人可能已经很难想到那些对应的用法了。近期应该会安排读一下它的源码,了解一下其设计思路,尤其是如何把大语言模型作为核心进行应用或服务设计。虽然这在未来是趋势,但当下确实大家还都在摸索,我想类似Semantic Kernel这样的项目应该能有一些借鉴意义。

从微软和OpenAI目前的合作也可以看出两者的定位和方向,OpenAI就只管研究最顶尖和前沿的技术,业务工程化和商业化由微软来完成,多么完美的合作。可以断定,他们在未来肯定会合作的越来越极致,想学习大模型如何服务商业应用,跟着微软走就行。上面提到的只是他众多项目中的两个而已,Bing+搜索不也是一个很好的例子吗。不过想学习算法,看OpenAI现在的态势,大概是不会透露太多技术细节的。未来这样的模式很可能成为主流——少量顶尖机构研究算法,大量工程师借此开发工程。

产品与业务

比赛分为企业组和高校组,每组一共将近30个项目,我被分在了高校组,大部分项目比较初级,想的相对偏多做的相对偏少。但其中有三个项目让人眼前一亮,接下来简单介绍下这几个项目。

第一个项目是AI生成视频的,主要聚焦在影视行业,做类似电影宣传片、小短片之类的视频。目前AI自动生成的视频大概在3-4秒左右,所以生成的完整视频基本都是多个片段拼合的。但要拼合的好,那也是不容易的,难度体现在多个方面。从视频角度看,前后语义的连贯性、人物肖像的一致性或随故事发展的变化性、整体主旨的表达等多个方面都存在不小的挑战。从音频角度看,声画同步、作曲风格、曲调曲风适配性等方面也不是容易解决的。此外,还有音视频的版权、人物肖像权等版权相关的风险,以及生成内容方面的风险。但该小组给出的成品已然相当不错,瑕疵肯定是有的,还不少,但至少我们也看到了一种可能性,AI一键生成电影也许并不遥远。

第二个项目是AI自动生成PPT的,他们的核心理念并不是从头到尾生成一份完整的PPT,而是一页一页进行针对性优化,既针对风格、也针对内容。解决的痛点就是有个大概的提纲,但难以很快完成一个还不错的PPT。这个项目的产品相当完整,在开发过程中还顺带研发了几款相关的工具(比如有一个标注工具)。这个项目需要人参与其中,与AI一起合作完成一个PPT,好用性和实用性都非常不错。

第三个项目是用AIGC做穿搭的,他们基于自己研究的多SD组合,使得无论在效果还是效率上都比已有方案有极大的提升。该团队目前已成立公司,在前期融资阶段。项目整体思路清晰,且有一定的技术壁垒,创始人对市场的判断和团队的规划都很出色。

除此之外,还有一些比较不错的项目,比如把图像生成技术与古董结合生成特定图标的,利用大模型进行蛋白质设计的,利用大模型和图像技术进行游戏场景制作及脚本自动生成的。抛开技术不谈,项目与场景结合的都很不错。

通过近距离感受这些项目,我对产品和业务有了一些新的感受。之前有专家认为未来大模型会重构整个产品和交互设计,不过目前尚未看到有这样的迹象。但产品的重要性却更加凸显,如何利用好强大的AI技术,开发出有价值、好用的产品是每个产品经理正在思考的问题。从这些项目中我们可以看到,大部分的好项目都聚焦于解决某一个问题,这和传统的思路是一致的,技术终归需要落到用户痛点上。未来也许AI产品经理这个职位会更加重要,要求更高。

除此之外,可以看到,现在做一款产品可能只需少量几个人(甚至还是没有什么经验的学生),技术方面通过调用API,只需规划好产品、解决用户的问题即可。这方面国外早有例子,比如Midjouney初期就只有10个左右的员工。我的判断是,未来这一趋势会更加明显,应用侧竞争会相当激烈,已然是完全竞争市场的样子。可以肯定的是,绝大部分项目或创业团队可能活不过三年,但能最终拼杀出来的也很有可能成长为行业翘楚。

最后,从产品和业务方向上看,对已有业务和应用赋能与开始全新的业务是两种不一样的选择。前者看起来更自然、风险更低,但后者可能更有想象力(也更难),比如前面提到的AI生成视频、AI穿搭等。总的来说,重构和变革正在不知不觉中发生,都说大模型时代无论技术还是产品都是按天迭代,虽然有点夸张,但也能就此感受到其变化速度。我想,颠覆也许即将到来。

职业与发展

其实在Semantic Kernel那场分享时就开始思考算法工程师的定位和壁垒。这一问题之前已经探讨过多次了,比如这篇ChatGPT 影响冲击:职业、行业与产业 | Yam,当时已经惴惴不安了,现在更甚。肉眼可见,大语言模型能力在不断提升,同时表现出了两个极端:算法研究的聚集化和算法应用的普及化。大语言模型基础能力的研究越来越集中在少数几个公司,而且即便是这几个公司,能真正做算法本身研究的也是极少数的一小撮人,对外开发的职位数量极少,同时要求极高。但大模型相关的应用却如火如荼,一片红海,除了传统的算法工程师,后端、前端、运营、产品经理,甚至高中生都可以借助大模型以及各种前面提到的如LongChain、Semantic Kernel等方便的工具在很短时间内开发出一款还不错的应用。算法工程师该何去何从?是和刚毕业甚至还没毕业的学生,甚至产品、运营去比谁写的Prompt好吗?还是在大模型没有完全普及时在传统方向里短时间苟延残喘?亦或是占着一点领先优势做做微调工作,直到模型彻底不需要微调为止?

想到这些问题我简直坐立难安,感觉自己正在一点点丧失优势,不知道自己目前所掌握的算法知识还能用多长时间。我在努力学习关于大语言模型的一切,从预训练、微调、到量化、部署,只想继续在这个行业内深入前行。但市场是无比残酷的,想要谋求到一份心仪的工作岗位难度无法想象。从专业角度来看,自然是要继续从事该领域算法的研究,但前面已经说过了,谈何容易。更为恐怖的是,随着时间的推移,大模型能力的不断提升,这个趋势还在不断加剧。也就是说,未来搞基础研究的人会更少更精,搞应用服务的会更多更卷。两头都卷,我们却不得不选择走向一头。

肯定有人觉得,90%的人在做应用这不是很正常的事情吗,之前BERT时代不也如此,再之前同样如此。对此,我只想说,这回大不一样,这中间最大的区别就是之前即便是做应用那也是有门槛的,需要一些算法知识和项目经历;大模型时代,真的就有手就行。当有一天,一个高中生或者刚毕业的学生都能和一个有多年工作经历的算法工程师提供同样效果的接口时,后者只会被拍死在沙滩上,毫无反抗之力。而这一切正在飞速地发生、变为现实。

我目前能想到这么几个可以考虑的方向:1. 继续往基础算法走。这个门槛很高,岗位稀缺,对大多数人来说得看运气。2. 转管理岗位。这个一般需要有多年项目经历,对业务有自己的理解和认识,此时再强的技术都只是工具和杠杆。3. 转产品或运营。算法工程师具有比其他职位更大的优势,公司也喜欢算法从事类似岗位。4. 转工程架构。再好的算法也要落地,即使调用API,当规模上去之后也是个棘手的问题,这需要有扎实的代码能力,对计算机底层非常熟悉。

站在个人角度,职业无好坏,理想照前方,道路坎坷崎岖,没有捷径一步登天,唯坚定前行;站在公司角度,无论算法工程,都终将服务于产品和业务,并交由市场给出答案,没有成功银弹,需实力运气并存。