第十一章:概率语法
基于规则的句法剖析主要使用 Chomsky 的上下文无关语法。之前的自顶向下、自底向上、左角、CYK、Earley、线图分析法等都对歧义无能为力,于是有了新的改进:一方面是给上下文无关语法的规则加上概率,另一方面是除了加上概率外,还考虑规则的中心词对于规则概率的影响。这些称为 “概率语法”。
基于规则的句法剖析主要使用 Chomsky 的上下文无关语法。之前的自顶向下、自底向上、左角、CYK、Earley、线图分析法等都对歧义无能为力,于是有了新的改进:一方面是给上下文无关语法的规则加上概率,另一方面是除了加上概率外,还考虑规则的中心词对于规则概率的影响。这些称为 “概率语法”。
语用学是对语言与使用环境之间关系的研究。使用环境包括像人和物这样的本体,也包括话语的上下文。研究主要涉及修辞结构理论、文本连贯、言语行为理论和会话智能代理等方面。
1975 年,Gross 首次提出 “词汇语法” 的理论,1979 年进一步完善了理论,是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。
坚持索绪尔的纯语言学立场,主张 “语言学唯一的、真正的对象是就语言并为语言而研究的语言”,把语言定义为一种特殊的、带有自然现象许多特点的社会现象,主张从语言的内在结构去研究,即把语言作为音义结合的符号系统来研究,把一切非语言的因素严格限制在一个能把握得了的范围之内。
坚持结构主义方法论原则。即语言是一个结构系统,应当注重各个成分之间关系的探索,重视共时的研究,强调形式的分析和描写。
坚持实证主义的变换方法。
中心思想是词汇及语法,对二者的互动关系探求应当系统地进行。
在理论和实践的关系上,坚持方法的选择必须以应用价值为先导,反对以假设为前提、忽视应用的做法。
主张句法独立,坚持在句法描写中摈弃语义上的先验模式,使语义的描写处于最低量态度,做到 “语义低量”。Gross 坚信,句法可以形式化到相当的应用程度,而语义不可能独立于句法而达到形式化,他不排斥语义,但是主张语义描写的最低量。
如果从形式化角度来说,语义的确不如句法;但句法的出现和发展也是为了表达语义的。
我现在越来越怀疑语言学的这一系列研究方法,肯定有其价值,但到底是不是正确的方向,或者说究竟有没有正确的方向?
从某种意义上来说,词汇语法有一定道理,尤其是其基于词汇主义的思想,词很有可能比现有研究所表现出来的更加重要。
相信一切语言理论和方法都受到语言事实的检验。
美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段:
短语结构语法有局限性,其中最大的问题就是生成能力过于强大,区分歧义结构能力很差,常常会产生大量的歧义句子或不合格句子。于是就出现了本章将要讨论的这些能够避免这种局限性的新的语法理论。
相比无序数据,人类更喜欢有序的,比如我们会整理房间,我们会努力组织语言以便让别人更容易理解,等等。提升效率当然是一个原因,比如字典(很难想象一本乱序的字典要如何使用),但还有个我个人觉得很重要的因素是:人是智能体。减熵是智能的一种表现,人类有一种几乎是本能去降低无序性和不确定性的趋向。因为计算机需要供人类使用,排序自然就是一个非常基本且重要的任务了。事实也是如此,我们平时在用代码完成特定任务时,排序也经常会出现在其中,而且往往是处理和分析的第一步。而对计算机本身来说其实并不在乎,就像 ”人工智能“ 也是我们强加给他们的一样,只是因为我们希望他们能够理解人类并为人类服务。所以我们这节主要探讨一下计算机中的排序。为了能够更简单地说明问题,我们假定要排序的是一系列正整数,且按升序排列。