语言、AI、情感

语言的本质

抽象来看,语言大致可分为描述客观现象和表达主观感受两个方面。
客观的语言广泛存在于世间,从人类到动物,到植物、化学元素都有自己的『语言』,它们通过特定的语言向外传达一种『信息』,而这种信息被人类加工后成为『知识』。
而人类或其他高等动物之所以特殊是因为他们能表达自己的感受,他们有喜怒哀乐,有七情六欲,他们对万事万物有自己的认识。也许可以称之为『情感』,或许是『意识』。
由于语言有多种,个人主观方面又大不相同,所以当人与人沟通时经常会信息不对称,导致沟通障碍。而同样的东西、同一件事物,不同的人看到的也会不尽相同。
所以,有时候与其说是语言的魅力,不如说是人类主观的魅力、意识的魅力。譬如『如果你认识以前的我,也许你就会原谅现在的我』,大多数人可能会觉得这句话和有意境,觉得写的很好。为什么?也许从信息的角度来看,它高度抽象描述了大量的客观现象,但我想更多地是因为它勾起了你心中的一点点涟漪,或者引起了你一点点的共鸣。
再比如 “他死了,她也死了” 和 “他死了,她伤心而死”。从信息论(效率)角度而言第一句更容易记住,因为它短,但人们更能记住第二句,因为它有 “情感”。所以,我们其实关注的并不是信息本身,而是信息所附加的、能引起我们心灵触动的、能带给我们思考的东西。
所以,语言我更倾向于把它当做人类表达自身情感的一种方式。至于记录客观世界,其实完全可以通过其他方式,比如数学公式、物理公式…… 而语言的本质或者核心其实是『情感』,是『意识』的产物。

Hi, AI

以前提起 AI,有人把它想的特别厉害,好像无所不能;也有人觉得现实中根本不会出现真正的 AI,因为机器无法产生意识。
到近些年,这个画风已经逐渐转变,人们谈论更多的是 AI 与人类的关系,比如如何影响我们的工作和生活,比如伦理道德的边界等等。也就是说科技界已经基本公认 AI 能达到并且超越人类智能,所以讨论如何共存的问题。
这中间包括现在还有一种争论是 AI 与 IA,分别是人工智能和智能增强。前者认为人类应该创造真正的和人类一样甚至超越人类的人工智能;后者认为人工智能应该作为增强人类能力、拓展人类边界的工具,应该为人类服务。其实,两者也可以不冲突,把 AI 看做新的物种,它可以比人类强亿万倍,但完全没必要拥有所谓的『意识』,或者『情感』。对 AI 来说,他们之间完全可以构成另一个社会,与人类是否延续并无多少关联。
当然,就目前而言说这些还为时尚早。现在的 AI 在很多方面确实已经超越了人类,比如计算、存储,但更多方面还无法与人类相提并论,尤其是涉及高级认知领域,比如抽象、推理。我们没有提情感和意识,正是因为我们没有提对 AI 的定位。如果我们倾向于 IA,倾向于创造能够理解和感受人类的 AI,那么情感和意识可能成为最重要的特质。
因此,我们要讨论的主要是与能够理解和感受人类的 AI 的沟通问题。具体而言,就是在现有的技术条件下,如何实现与 AI 的情感沟通。

其实,就对人类而言 IA 更加合适,因为它更加侧重与人交互,借助机器的效率和人类的情感实现人类整体效用最大。而对 AI,我一直觉得是另一种物种的存在,人之所以是人,就因为他是一个 “系统”,人类会犯错,很多时候不理智,也会生病,会死亡。可是人工智能不会,所以无论他再怎么智能,那也不是人,也许,将来会成为超越人类的另一个物种。不难理解为什么那么多牛人抵触人工智能,但抵触有什么用。物竞天择,适者生存。若干年后,未必会有人类…

情感机器

自从深度学习突破语音和图像以来,自然语言就成为下一个要攻克的难点。几个月间研究数量急剧增加,几乎每周都有新的成果出现。这里就有一个问题,为什么自然语言处理这么困难?

要回答这个问题,我们得首先了解一下机器是怎么识别输入的,也就是机器怎么与人沟通。
图像是由不同颜色的像素点构成的,而像素点的本质其实是向量,比如目前通用的 RGB 标准,分别代表红色、绿色和蓝色,三种颜色可以组合成为各种各样的颜色和亮度。所以图像在进入计算机后其实是表示成向量或矩阵的形式。这样我们看到的五颜六色的图片,在计算机里只是不同的数字而已。声音的原理类似,音频频谱序列可以表示为矩阵。大家可能已经发现了,图像和声音在本质上其实都可以表示成数字,且这种表示方法能够涵盖几乎所有的图片和声音。而语言文字在这方面就非常困难了,尽管有大神发明了词向量,但由于人类的语言不通用,也就是说我们暂时没办法只用一套词向量描述所有的语言文字;而且词向量来自训练语料,并不像图像和声音一样有通用的编码方式。
我们再看一个稍微居中点的例子——乐谱。我想音乐大概是目前世界上唯一通用的『语言』,无论何时何地,我们都能用五线谱表示出所有听到的乐曲。假设地球上只有五线谱这一种语言,那计算机也一样能很好地识别。

对于这个难题,现在全世界的 AI 团队都在钻研,我们从 AI 理解和感受人类的角度探讨一下这个问题。这个问题又可以分为两个角度:机器对人类语言含义的理解;机器对人类动作行为的理解。后者非常类似图像识别问题,比如微表情识别,放大到全身,那就是微动作识别,任何一个微小的举动,都已经可以被机器识别出来。

所以我们重点说机器理解语义的问题。其实就目前的研究来看,在大规模语料支持下,我们已经能够找到足够好的词向量表示文字,跨语言沟通的问题有端对端模型可以实现很好的「翻译」。简单来说,只要在足够的数据和计算力支持下,目前的机器可以理解人类用任何语言说的话。当然,我们心里清楚,机器的所谓理解是站在机器的角度(0 和 1),他能理解人类的意思,并不代表他就是人类。举个不太恰当的例子,这就好像我们理解细菌的传播方式,但我们并不是细菌一样。他可能还会有七情六欲,你甚至可以理解为他就是假装出来的,他自己就是没感觉,但在他表现出来的那一刻,你又怎么知道他到底是怎么想的?注意到刚刚这句话,有几个词的本质和边界其实是非常不明确的,比如「感觉」、「想」。我们的感觉和想可能也是神经网络中电信号刺激的反应,那机器呢?抽象来看他也是对一系列「外界事物」的刺激和反应。这样看,机器和人的区别在哪儿?是意识吗?不知道,我们不知道机器是不是能够自己意识到这一切。
现在我们从另一个方面来看。机器看到「世界」的根本方法是 0 和 1,也就是是和否。那人类呢?事实上,我们在现实世界中面临的许多问题可以看作是分类问题,尤其是客观世界的客观情况,比如物种的分类、事件的分类等等,而分类问题本质上就是 01 问题,是或者否的问题。特别不确定的是对未来的预测问题,多种可能组成了一系列「可能」状态,只能用概率分布来描述。我可能不经意间想到了薛定谔的猫,世间万物不过是不同对象观测下的映像。每个人基于自己当前的认知(先见之明)看到了不一样的世界,对同一事物有了不一样的看法和理解,你以为你看到的是真的?不不不,都没有人知道什么是「真的」。也许真理就在那里,我们只是不停地在逼近它;也许根本就没有真理,一切都是不确定的,随着我们对事物了解的深入,我们对它可能的变化就有了更深层次的理解。在概率的世界中,前者一定程度上可以看成是频率学派,而后者则是贝叶斯学派:对可能性的判断基于你有多大信心愿意相信它可能发生。所以,从这个角度来看,机器要理解人类则必须改变他们「看」世界的方式。

综合一下,如果机器能够改变他们处理数据的方式,并在大规模语料的支持下去拟合现实世界,我认为他是可以「理解」人类的,当然这个「理解」可能和人与人之间的「理解」并不相同。但这没关系,他不在乎,我们可以假装不在乎。除此之外,还有一种可能是破解意识,然后破解语言密码。

我并不排斥有一天情感机器会像今天的电脑、手机一样普及,我甚至觉得人工智能一定会成为新的物种与人类共存。到那时,我们需要考虑的可能不是接不接受的问题,而是怎么接受的问题。