自然语言计算机形式分析的理论与方法笔记(Ch07)

第七章:基于词汇主义的形式模型

Gross 的词汇语法

1975 年,Gross 首次提出 “词汇语法” 的理论,1979 年进一步完善了理论,是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。

  • 坚持索绪尔的纯语言学立场,主张 “语言学唯一的、真正的对象是就语言并为语言而研究的语言”,把语言定义为一种特殊的、带有自然现象许多特点的社会现象,主张从语言的内在结构去研究,即把语言作为音义结合的符号系统来研究,把一切非语言的因素严格限制在一个能把握得了的范围之内。

  • 坚持结构主义方法论原则。即语言是一个结构系统,应当注重各个成分之间关系的探索,重视共时的研究,强调形式的分析和描写。

  • 坚持实证主义的变换方法。

  • 中心思想是词汇及语法,对二者的互动关系探求应当系统地进行。

  • 在理论和实践的关系上,坚持方法的选择必须以应用价值为先导,反对以假设为前提、忽视应用的做法。

  • 主张句法独立,坚持在句法描写中摈弃语义上的先验模式,使语义的描写处于最低量态度,做到 “语义低量”。Gross 坚信,句法可以形式化到相当的应用程度,而语义不可能独立于句法而达到形式化,他不排斥语义,但是主张语义描写的最低量。

    如果从形式化角度来说,语义的确不如句法;但句法的出现和发展也是为了表达语义的。

    我现在越来越怀疑语言学的这一系列研究方法,肯定有其价值,但到底是不是正确的方向,或者说究竟有没有正确的方向?

    从某种意义上来说,词汇语法有一定道理,尤其是其基于词汇主义的思想,词很有可能比现有研究所表现出来的更加重要。

  • 相信一切语言理论和方法都受到语言事实的检验。

操作理据、背景、意图和方法如下:

  • 操作理据:基于经验证实原则和客观主义的实证主义。
  • 操作背景:后海里斯主义(Post-Harrisism),Harris 一贯重视语言的形式特征,其核心概念是 “分布”,即某个单位或特征在话语里出现的不同位置的总和,也就是出现其中一切环境的总和。主张采取形式方法,不回避口语材料和反例,以直觉为本,从结构入手进行研究,而把句子的内容(语义)放在次要位置。
  • 操作意图:构建相互有机联系的描写、验证、分类、语料这四种机制
    • 描写:
      • 对特定语言进行系统描写的共时机制
      • 集中研究句子得以形成和出现的实证条件
      • 以词汇驱动,尽量进行穷尽性的描写,在具有规模真实语料范围内,对其中相关语言现象全部彻底地逐一描写
      • 建立以句子为基点的语法描写机制,把词汇放到句子中来验证句子的组配规则
      • 描写核心句的成分条件的句法模式,以符合足句条件的核心句为基本观念
    • 验证:把过去的语言学家所提出的语法规则放在一个形式化的、词汇与语法互动的系统中,核实和操作性
    • 分类:建立一套有关处理语料的理论,以便更加系统地收集事实,寻找观念与自省的互补关系,寻找语料及其种种相关形态的层次关系
    • 语料:语言学唯一的研究对象,要建立词库和语法库

操作方法分词汇的处理、语法的处理、矩阵的设计和专家的干预。

  • 词汇的处理:包括分出核心词汇、确定相关词汇义项的分立以及制定句法表现的合法度
  • 语法的处理:主张句法的研究需要一个明确的、清楚界定了的框架。
    • 只有从一个个具体的词项出发来引导和控制句法分析,才能从根本上把握词汇和语法的互动关系,这一点正是词汇语法方法论上的本质特征所在。
    • 词汇语法另一个重点是转换。分布和转换是密切联系的两个概念,句法的转换关系联系着相同的词类构成的相关句子集合,而且与单词的特性密切相关。
  • 矩阵的设计:母版是词汇语法形式化的关键,包括纵向标示和横向标示,纵向标示包括句型属性、分布属性、语义属性和相关变换属性;横向标示标示预设的词汇语法的词项。
  • 专家的干预:句法可接受度高于语义,这种可接受度通过专家干预决定:通过各种渠道系统地积集语料,以专家干预为主导处理语料。

词汇语法特点:

  • 基于表层形态以矩阵作为表达语言信息的媒介,通过具体词汇的各种特性的描写来描述语言的语法规则,对于母版的格式做定量描述,对配价做恒量描述。
  • 不回避口语材料和反例,以直觉为本,强调句法的可接受度,适当注意语义因素。
  • 以词汇驱动,尽量进行穷尽性研究,充分重视词汇的个体特性,要求尽可能高的词汇覆盖面。
  • 以符合足句条件的核心句为基本观念,把词放到句子中来验证句子的组配规则,在结构平面上把对句子里各部分之间形式上的关系放在主导地位上,排除会话情景等语用因素以及篇章分析等修辞因素。

链语法

D.Sleator 和 Temperley 于 1991 年提出,是一种立足于单词链接特性的语法。

单词的链接通过链描述,链有两种:链头和链座。句子通过连接子描述,连接子左边为链座,表示需要向左找对应的链头;连接子右边为链头,表示要向右找对应的链座。链座或链头有 “逻辑或” 关系的,组成该逻辑的对象称为 “选言肢”。链语法由一组词以及这些词相应的连接子组成,连接子由一列逻辑选言肢(逻辑“或”)组成。

句子的链系统应满足的四个条件:

  • 平面性:在一个句子上画出的词与词之间的链不交叉
  • 连接性:画出的链可以无遗漏地把这个词序列中的所有词都链接起来
  • 顺序性:在一个选言肢的左链(链座)和右链(链头)中从左到右排列的成分必须同它们分别要链接在其左边的词从近到远的顺序一致
  • 排他性:一对词之间最多只能有一条链相链接

词汇语义学

语言中的词汇具有高度系统化的结构,这种结构决定了单词的意义和用法。这种结构包括单词和它的意义之间的关系以及个别单词的内部结构。对这种系统化的、与意义相关的结构的词汇研究叫 “词汇语义学”。

词位表示词典中一个单独的条目,是一个特定的正字法形式和音素形式与一些符号的意义表示形式的组合。词典是有限个词位的列表。

词位和它的含义(意义)之间的关系包括:

  • 同形关系:形式相同意义上没有联系
    • 同形异义词
    • 同音异义词
  • 多义关系:一个单独的词位具有若干个彼此关联的含义,两种判断方法:
    • 词源判断法:词源有联系的是多义词,反之为同形词
    • 共轭搭配法:把待判断的两个含义用连接词组合到一个句子中,句子成立是多义词,否则是同形词
  • 同义关系:两个词位具有相同的意义,可以根据 “可替换性” 来定义,可替换性与以下因素有联系:
    • 多义关系中的某些含义的有无
    • 微妙的意义色彩的差别
    • 搭配约束的不同
    • 使用域的不同
  • 上下位关系:一个词位是另一个词位的次类,则存在上下位关系

知识本体

  • 关于本地的经典定义(对于存在的研究或科学)来自哲学研究。大师们的观点

    • Parmenides(巴门尼德):事物的本质独立于感官
    • Aristotle(亚里士多德):把存在分为不同的模式,建立了包含 10 个范畴的范畴系统:实体、质量、数量、关系、行动、感情、空间、时间、主动、被动
    • Kant(康德):事物的本质不仅仅由事物本身决定,也受到人们对于事物的感知或理解的影响。建立了包含四个大范畴的范畴框架:
      • 数量:单量、多量、总量
      • 质量:实在质、否定质、限度质
      • 关系:继承、因果、交互
      • 模态:可能性、现实性、必要性
  • 计算机处理

    • 1991 年,美国计算机专家 R. Niches 提出构建智能系统的两个部分:知识本体+问题求解方法
    • 1990 年,作者提出 “双态原则”:基于语法信息和知识本体的静态标记标注的机器词典 + 基于产生式规则的动态标记求解规则 = 机器翻译系统
      • 静态标记:存储在机器词典中的词类特征和单词固有的语义特征,与上下文语境无关
      • 动态标记:使用静态标记经过计算得出的句法功能标记、语义关系标记、逻辑关系标记等
  • 在人工智能中的定义:知识本体是对概念体系(所描述的客观世界的现象中有关概念的抽象模型)的明确的、形式化的、可共享的规范。(1998 年,Studer)

  • 作者的知识本体系统:ONTOL-MT 初始概念有:事物、时间、空间、数量、行为状态和属性,初始概念下还有不同层次的下位概念。

    • 事物:在空间(包括思维空间)上和时间上延展的事物本体。包括物:具体物 + 抽象物和事
    • 时间:运动和变化持续性的表现,物质存在的客观形式。包括时点、时段、时间属性
    • 空间:事物及其运动存在的另一种客观形式。包括场所、距离、途径、方向
    • 数量:包括数值、计量、金额、历时、频次
    • 行为状态:包括物理行为、心理行为、状态、关系、进化、关涉、改动、转移
    • 属性:包括外形、表象、颜色、味道、性质、德才、境况
  • 作者把《同义词词林》融入 ONTOL-MT,形成 ONTOL-MT2,共有 14 大类:人、自然物、人造物 工具、抽象物、事、时间、空间、数量、物理行为 动作、心理行为、社会活动、现象和状态、属性、其他

词网

词网是 1985 年美国普林斯顿大学的 G. A. Miller, R. C. Beckwick, C. Fellbaum 等研制的英语的词汇关系数据库。

词网的三个基本假设:

  • 分离性假设:语言中的词汇成分可以从语言中分离出来单独研究
  • 模式化假设:人们倾向于特别关注词语所表达的含义之间的系统模式和关系
  • 完全性假设:系统需要尽可能地把人们的词语知识存储在词网中

词网的基本单位是单词,包括动词、名词、形容词-副词数据库。

  • 名词:词网的基本语义关系是同义关系。同义词的集合构成了同义词集,叫做 SYNSET。为了表达上的方便,一般只用 SYNSET 中的代表性单词表示 SYNSET。名词数据库使用了 25 个初始概念,经过归纳整理形成了 11 个初始概念:实体、抽象、心理特征、自然现象、活动、事件、集体、位置、所属、外形和状态。
    • 上下位关系:单词的特定含义之间的关系,代表的是词汇化的概念之间的关系
      • 由概括性较弱的含义指向较强的含义,叫作普遍化
      • 由概括性较强的含义指向较弱的含义,叫作具体化
    • 部分-整体关系:部分词(Sm)和整体词(Sh),六种类型:
      • 组成成分-客体(词网使用),如:树枝-树
      • 成员-集体(词网使用),如:树-森林
      • 局部-物质,如:一片蛋糕-蛋糕
      • 材料-客体(词网使用),如:铝-飞机
      • 特征-活动,如:支付-购物
      • 地点-地域,如:普林斯顿-新泽西州
    • 反义关系:具有反义关系的名词的上位词往往是相同的
  • 形容词:修饰名词的都可看做形容词:形容词、名词、现在分词、过去分词、介词短语、小句等
    • 描写形容词:可以给被它修饰的名词赋上一个属性值,两个特征:
      • 属性的两极性:表示的属性彼此对立。把直接反义词和间接反义词组织到 ”两极聚类“。
      • 属性的分级性:按不同的属性分级,可以看出形容词含义近似的程度,而形容词表示的属性也会因此显示出方向性(维度)。
    • 关系形容词:由名词派生,与描写形容词的区别:
      • 关系形容词不涉及所修饰名词的性质,因此与属性无关
      • 关系形容词不能分级
      • 大多数关系形容词没有直接反义词
  • 副词
  • 动词,14 个语义领域:运动、感知、接触、交际、竞争、变化、认知、消耗、创造、情绪、占有、身体保健和功能、社会行为、交互。有些语义领域需要使用若干个独立的树形结构表示。使用 ”承袭“ 描述两个动词间的关系,承袭关系具有如下性质:
    • 单向关系
    • 彼此承袭必定是同义词
    • 否定可以改变承袭关系
    • 否定承袭的一方会造成矛盾
    • 具有承袭关系的动词在时间上存在着联系
    • 在时间上的包含关系

知网

董振东和董强研制,是一个词典知识描述系统。在知网中,每一个词语的概念及其描述构成一个记录,每一记录有八项内容:

  • W_C=汉语词语
  • G_C=汉语词语的词性
  • E_C=汉语词语的例子
  • W_E=英语词语
  • G_E=英语词语的词性
  • E_E=英语词语的例子
  • Def=概念类别和属性:类别,属性1,属性2……

知网的设计者认为,世界上的一切事物都在一定的时间和空间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常由其属性值的改变来体现。因此知网把概念的范畴分为 N 范畴、V 范畴和 A 范畴三类。

  • N 范畴:包含实体、属性和单位,其中实体包含万物、时间、空间和部分,万物又进一步分为物质、精神和事情,通常是运动和变化的主体
  • V 范畴:包含各种事件,事件又可分为静态事件和行为动作
  • A 范畴:包含各种属性值,与 N 范畴的属性严格对应

知网描述的是词语的语义。Def 中的概念类别代表了概念的主要属性,它们被组织在体现上下位关系的层级结构中,主要属性体现了概念的本质属性。概念的次要属性不存在上下位关系。对于主要属性和次要属性的处理遵循如下原则:

  • 上位的概念的属性可以由下位概念的属性继承;下位概念至少有一个属性是它的上位概念所不具备的
  • 词典中每一个概念都必须有一个主要属性,就是这个概念的类别
  • 在确定类范畴及其上位下位关系时,分类标准必须保持一致
  • 当主要属性用作次要属性时,可以保留它的全部或部分属性,但要失去它在层级系统中上下位关系的地位,不能再推导它的上位或下位关系

Pustejovesky 的生成词库理论

美国布兰代斯大学教授 Pustejovesky 于 1991 年提出,1995 年出版专著《生成词库》,理论框架基本成形。

生成词库理论(Generative Lexicon Theory,GLT)首次把广义的生成方法引入到词义和其他领域的研究中,它是在研究了词的创造性用法的基础上建立的词义表示方法,关注词义的形式化和计算,试图从生成的角度解释词的不同用法以及词在上下文中的创新性用法。

GLT 的核心思想是,一个词项的意义在词库中是相对稳定的,到了句子层面,在上下文中,通过一些生成机制可以获得词项的延伸意义。其主要目标是研究各语言中的多义、意义模糊和意义变化等现象。

GLT 包括两大部分:词项在词库中的词汇语义表达(词库问题);句法层面的语义生成机制(生成问题)。

词库问题

词库中一个词项的词汇语义表达包括四个层面:

  • 论元结构:论元的具体数目、类型,并说明它们在句法层面的实现方法
  • 事件结构:事件类型包括状态、过程和转变;可能有子事件;要说明哪个事件是核心事件并说明事件组合规则
  • 物性结构:词项所指对象,说明词项由什么构成、指向什么、怎样产生的,并说明词项用途和功能,包括
    • 构成特征(构成角色):描写物体与其组成部分之间的关系
      • 包括材料、质量、部分
      • 也描写物体在更大范围内构成或组成哪些物体
    • 形式特征(形式角色):描写物体在更大的认知域内区别于其他物体的属性
      • 包括方位、大小、形状、颜色和维度
    • 功用特征(功用角色):描写物体的用途和功能
      • 功用有两种:直接或间接功用
      • 还描写人的社会功用
    • 施成特征(施成角色):描写物体是怎样形成或产生的,如创造、因果关系等
      • 涉及物体的来源和产生的因素
  • 词汇类结构:说明一个词项在一个类型系统中的位置,这决定了与其他词项的关联方式,即词汇继承关系

Pustejovsky 等学者在物性结构中的功用角色的基础上,把词汇的类型分为自然类、人造类和合成类,并据此建构了整个语义类型体系。GLT 假设人类的认知能力反映在语言中,尤其反映在心理词典中,这个心理词典是复杂、动态而又连贯的知识系统,是结构化的语言学操作和生成意义的组合规则之间的接口。心理词典中的词汇按其所代表的意义内容分为自然类、人造类和合成类。

  • 自然类:
    • 是物性结构中的形式角色和构成角色相关的原子概念
    • 从上位类中继承形式角色,是其他类的基础
  • 人造类:
    • 结合了物性结构中施成角色和功用角色信息的基础类型
    • 增加了功能概念,从上位类中继承功用角色
    • 与自然类的区别是有 “意图”
  • 合成类:
    • 又叫 “点对象”,由自然类和人造类组成,从两三个自然类或人造类继承角色
    • 在描写中用词汇概念范例(lexical conceptual paradigms,LCP)标记:把一个词的不同词义合并到一个元词项,这个元词项就叫 LCP

三大语义类的区分以名词为出发点,动词和形容词根据其与名词语义类的对应关系也相应地分为三大类。GLT 关于词项的语义描述,最大的特色在于增加了物性结构,把名词词义与经验知识相结合,把名词与动词相联系,尤其是功用角色的引入,直接影响了其语义类型体系。特点和贡献如下:

  • 通过物性结构,把日常经验知识和词汇语义连接在一起。

    关于语言知识与非语言知识的问题:

    • 传统的语义学:两者有明显界限,后者不是语言研究对象
    • 认知语言学:没有明显界限
    • 框架语义学:语言的理解要引入非语言知识的背景
  • 区分了自然类与人造类。GLT 的贡献在于把自然类和人造类的区分与动词联系起来,并加以形式化。

  • 引入多重继承。

生成问题

语义生成机制分为三类:类型强迫、选择约束和共同组合。近年来的变化是把类型强迫纳入了语法上的论元选择机制。根据论元选择的情况,有三种论元选择生成机制可以解释词项在组合中句法和语用的表现。语义生成机制也就是论元选择生成机制。

  • 纯粹类型选择(Sel):函项要求的类型能被论元直接满足
  • 类型调节(Acc):函项要求的类型能从论元继承
  • 类型强迫:函项要求的类型被强加到论元上。通过 “利用” 和 “引入” 两种方式实现
    • 利用(Exploit):利用论元类型结构的一部分满足函项要求
    • 引入(Intro):引入函项要求的类型来包装论元
论元类型/要求的类型 Natual Artifactual Complex
Natual Sel/Acc Intro Intro
Artifactual Exploit Sel/Acc Intro
Complex Exploit Exploit Sel/Acc

GLT 在语义生成机制方面的改进主要表现在,从类型选择的角度区分了纯粹类型选择和类型强迫,分别来处理类型匹配和不匹配的情况,尤其强调类型强迫这一机制的作用,从而可以解决某些多义或语义模糊问题。

类型强迫可以把论元转换成符合函项要求的类型,否则就会出现类型匹配错误。出现类型强迫时,词项的语义可能发生变化,主要有两种:

  • 保持域不变
  • 域发生变化
    • 实体变成事件
    • 事件变成时间间隔
    • 实体变成命题

基于语料库的一个语义体系:lrec-bso.pdf

小结

本章主要介绍了基于词汇主义的形式模型。

  • Gross 的词汇语法

    • 1975 年,Gross 首次提出 “词汇语法” 的理论,1979 年进一步完善了理论,是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。
    • 操作理据:基于经验证实原则和客观主义的实证主义。
    • 操作背景:后海里斯主义(Post-Harrisism),Harris 一贯重视语言的形式特征,其核心概念是 “分布”,即某个单位或特征在话语里出现的不同位置的总和,也就是出现其中一切环境的总和。主张采取形式方法,不回避口语材料和反例,以直觉为本,从结构入手进行研究,而把句子的内容(语义)放在次要位置。
    • 操作意图:构建相互有机联系的描写、验证、分类、语料这四种机制
    • 操作方法分词汇的处理、语法的处理、矩阵的设计和专家的干预。
  • 链语法

    • D.Sleator 和 Temperley 于 1991 年提出,是一种立足于单词链接特性的语法。
    • 单词的链接通过链描述,链有两种:链头和链座。
      • 句子通过连接子描述,连接子左边为链座,表示需要向左找对应的链头;
      • 连接子右边为链头,表示要向右找对应的链座。
    • 链座或链头有 “逻辑或” 关系的,组成该逻辑的对象称为 “选言肢”。链语法由一组词以及这些词相应的连接子组成,连接子由一列逻辑选言肢(逻辑“或”)组成。
  • 词汇语义学

    • 语言中的词汇具有高度系统化的结构,这种结构决定了单词的意义和用法。这种结构包括单词和它的意义之间的关系以及个别单词的内部结构。对这种系统化的、与意义相关的结构的词汇研究叫 “词汇语义学”。
    • 词位表示词典中一个单独的条目,是一个特定的正字法形式和音素形式与一些符号的意义表示形式的组合。词典是有限个词位的列表。词位和它的含义(意义)之间的关系包括:同形、多义、同义、上下位。
  • 知识本体

    • 1991 年,美国计算机专家 R. Niches 提出构建智能系统的两个部分:知识本体+问题求解方法
    • 1990 年,作者提出 “双态原则”:基于语法信息和知识本体的静态标记标注的机器词典 + 基于产生式规则的动态标记求解规则 = 机器翻译系统
    • 作者的知识本体系统:ONTOL-MT 初始概念有:事物、时间、空间、数量、行为状态和属性,初始概念下还有不同层次的下位概念。
  • 词网

    • 词网是 1985 年美国普林斯顿大学的 G. A. Miller, R. C. Beckwick, C. Fellbaum 等研制的英语的词汇关系数据库。
    • 词网的三个基本假设:分离性假设、模式化假设、完全性假设
    • 词网的基本单位是单词,包括动词、名词、形容词-副词数据库。
      • 名词数据库使用了 25 个初始概念,经过归纳整理形成了 11 个初始概念:实体、抽象、心理特征、自然现象、活动、事件、集体、位置、所属、外形和状态
      • 形容词:修饰名词的都可看做形容词:形容词、名词、现在分词、过去分词、介词短语、小句等
      • 副词
      • 动词,14 个语义领域:运动、感知、接触、交际、竞争、变化、认知、消耗、创造、情绪、占有、身体保健和功能、社会行为、交互。
  • 知网

    • 董振东和董强研制,是一个词典知识描述系统。在知网中,每一个词语的概念及其描述构成一个记录。
    • 知网的设计者认为,世界上的一切事物都在一定的时间和空间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常由其属性值的改变来体现。因此知网把概念的范畴分为 N 范畴、V 范畴和 A 范畴三类。
    • 知网描述的是词语的语义。
  • Pustejovesky 的生成词库理论

    • 美国布兰代斯大学教授 Pustejovesky 于 1991 年提出,1995 年出版专著《生成词库》,理论框架基本成形。
    • GLT 的核心思想是,一个词项的意义在词库中是相对稳定的,到了句子层面,在上下文中,通过一些生成机制可以获得词项的延伸意义。其主要目标是研究各语言中的多义、意义模糊和意义变化等现象。
    • GLT 包括两大部分:词项在词库中的词汇语义表达(词库问题);句法层面的语义生成机制(生成问题)。
      • 词库中一个词项的词汇语义表达包括四个层面:论元结构、事件结构、物性结构(构成角色、形式角色、功用角色、施成角色)、词汇类结构。GLT 假设人类的认知能力反映在语言中,尤其反映在心理词典中,这个心理词典是复杂、动态而又连贯的知识系统,是结构化的语言学操作和生成意义的组合规则之间的接口。心理词典中的词汇按其所代表的意义内容分为自然类、人造类和合成类。
      • 根据论元选择的情况,有三种论元选择生成机制可以解释词项在组合中句法和语用的表现。语义生成机制也就是论元选择生成机制。包括:纯粹类型选择(Sel)、类型调节(Acc)、类型强迫(通过 “利用” 和 “引入” 两种方式实现)

本章都是以词汇为中心的形式模型,尤其是知识本体、词网(知网)和生成词库理论关于 “知识” 概念和语言哲学的探讨,引人深思。