自然语言计算机形式分析的理论与方法笔记(Ch08)

第八章:语义自动处理的形式模型

关于语义与语法分析的关系,有两种方式:先句法后语义和句法语义一体化。

义素分析法

20 世纪 40 年代初期,结构主义丹麦学派代表人数 L. Hjelmslev 提出义素分析法的设想;20 世纪 50 年代,美国人类学家 F. G. Lounsbury 和 W. H. Goodenough 在研究亲属词的含义时提出了义素分析法;20 世纪 60 年代初,美国语言学家 J. J. Katz 和 J. A. Fodor 提出了解释语义学,将义素分析法引入语言学,为生成转换语法提供语义特征。

义素是意义的基本要素,它就是词的理性意义的区别特征。词的理性意义是一束语义特征(义素)的总和。一组词的义素可以用义素矩阵表示,纵坐标表示词,横坐标表示义素,纵横坐标相交点注以 + 或 - 号或其他表示方法。

采用义素分析法建造机器词典可以解决利用辞典直接存储每个词意义(义项)的问题(占用空间大;难于判断别同义词、近义词在意义上的差别;难以确定词与词之间的搭配关系):

  • 机器词典中词条以义素存储,可以使用较少的义素对大量的词义做形式化描述
  • 通过对机器词典中不同义素集合内的各个义素的分析比较,计算机容易找出不同单词在词义上的细微差别
  • 通过义素分析法,计算机可以了解词与词搭配时在语义上要受到什么样的限制

隐喻在修辞学中属于一种 “辞格”,一个完整的隐喻一般由 “喻体” 和 “本体” 构成,喻体通常是我们熟悉的、比较具体直观、容易理解的一些概念范畴,本体则是我们后来才认识的、抽象的、不易理解的概念范畴。在认知语言学中,喻体叫作 “始源域”,本体叫作 “目标域”。隐喻的认知力量就在于将始源域的图式结构映射到目标域上,使人们对目标域有更清晰的认识。认知语言学认为,隐喻不但是一种修辞手段,而且还是人的一种思维方式普遍存在于人们的各种认知活动中。

语义场

要进行义素分析,首先要对该语言的词汇体系建立起 “语义场”。

1924 年,德国学者 G. Ipsen 提出该术语,20 世纪 30 年代初,德国学者 J. Trier 提出系统的语义场理论,1992 年,北大贾彦德在《汉语语义学》中系统提出了汉语的语义场理论,北京语言大学张普提出 “场型” 的概念。

语义场是词义形成的系统,它是基于概念的关系场,是词义与词义之间构成的一种完全虚化、非物质的空间领域。若干个意义上紧密相联的词义,通常归属于一个总称之下,就构成了语义场。

语义场可进一步分为词汇场和联想场。词汇场是静态的,表现为词义与词义之间的组合关系。这里的语义场主要指词汇场。

汉语的场型(不同类型的语义场)包括:

  • 分类场型:基本场型,一般是多层次的,特点如下:
    • 上下词义之间存在着领属关系,上位表示领域,下位表示分类
    • 下位可以继承上位的基本义素
  • 构件场型:基本场型,下位是上位的构件,特点如下:
    • 上下位之间是整体和构件的关系
    • 不是下位继承上位义素而是上位抽取下位的某些义素来集成
  • 有序场型:基于分类场型和构件场型的特殊场型,所有平位是有序的,特点如下:
    • 同一层次的词义排列是有序的,反应了客观世界的有序性
    • 一些有序的词义是封闭型的,封闭型的词义可以循环
  • 对立场型:特殊场型,平位的词义之间存在对立关系,特点如下:
    • 一些对立场型中的平位只有两个
    • 一些对立场型的平位不止两个,之间还有中间状态,这种对立叫作两极对立
  • 同义场型:特殊场型,同一场型中,同位和变位的理性意义完全相同,只是附属于理性意义的风格、色彩等方面义素不同

场与场之间的关系有:

  • 嵌套关系:同一类场型之间的关系
  • 交叉关系:不同场型之间的关系
  • 传递关系:不同场型之间的关系
  • 联想关系:不同场型之间和同一场型不同子场之间都可以产生联想关系

语义网络

1968 年美国心理学家 M. R. Quillian 研究人类联想记忆时提出的,1972 年,美国人工智能专家 R. F. Simmons 和 J. Slocum 首先将语义网络用于自然语言理解系统中。1977 年,美国人工智能学者 G. Hendrix 提出了分块语义网络的思想,把语义的逻辑表示与 “格语法” 结合起来,把复杂问题分解为若干简单的子问题,每个子问题以一个语义网络表示。

语义网络可用有向图表示,一个语义网络就是由一些以有向图表示的三元组:(结点1,弧,结点2)连接而成的。三元组可写成二元谓词:P(个体1,个体2)

在人工智能中,语义网络内各概念之间的关系主要(常见的关系)由 ISA, PART-OF, IS 等谓词来表示,分别是 “具体-抽象” 关系(隶属关系)、“整体-构件” 关系(包含关系)、“一个结点是另一个结点的属性”。

语义网络可表示一个事件,事件由若干个概念组合所反映的客观现实,可以分为叙述性事件、描述性事件和表述性事件三种。语义网络表述事件时,结点之间的关系还可以为施事(AGENT)、受事(OPATIENT)、位置(LOCATION)、时间(TIME)等。

语义网络的推理机制一般基于网络的匹配。根据提出的问题构建局部网络,查询解答的过程就是查询局部网络到网络知识库的匹配操作。

知识图谱描述真实世界中存在的各种实体或概念,每个属性-值偶对用来刻画实体的内在特性,而关系用来连接两个实体。可以看作一个巨大的语义网络。

知识图谱不仅需要在数据层构建(自底向上),还需要在模式层上构建(自顶向下),模式是对知识的提炼,遵循预先给定的模式,有助于知识的标准化。

Montague 语法

Montague 语法采用内涵逻辑的方法描述句子语义内容,1970 年前后美国数理逻辑学家 R. Montague 等把内涵逻辑应用于自然语言的研究,并把生成语法与内涵逻辑这两个领域的研究集中提炼为 Montague 语法。

Montague 认为自然语言与高度形式化的逻辑语言没有区别,他将 Frege 原理(一个句子的整体意义是它各部分意义和组合方式的函数)中的 “意义” 扩展到 “结构”:一个句子的整体结构是它各部分的结构和组合方式的函数。

因此在 Montague 语法里,一个句子的句法形式、内涵逻辑表达式和语义所指都是从基本单位开始,通过句法规则、转译规则和语义规则,从小到大逐段确定的。句法、转译和语义三大部分是同态的。有一条句法规则就有一条转译规则把它处理的短语转译成内涵逻辑表达式,然后再由一条语义规则来确定这个内涵逻辑表达式的语义。歧义问题通过不同的组合方式和运用不同的句法、语义规则来解决,这是 Montague 语法的 “规则对规则假说”。

  • 句法:包括一套语类和一套句法规则。功能是把来自词库的词语组成句子。
    • 语类给基本词语规定一个句法范畴
      • 语类由基本语类 e 和 t 以及它们之间关系的一组集合,e 和 t 是基本语类,其他是派生语类。
      • 语类 e 表示自然界某类事物中的个体词语或实体词语,并不等于传统语法中的名词或名词短语。
      • 语类 t 表示具有真值的语言单位,叫作真值词语或陈述语句。
    • 句法规则把基本词语变成短语,然后再把较小片段短语合成较大片段短语
  • 转译:包括一套转译规则,把短语转译成内涵逻辑表达式。
  • 语义:以内涵逻辑为基础建立的。内涵逻辑包括句法和语义两方面:
    • 句法:由一套义类系统和句法规则组成,主要解决内涵逻辑结构成分的结合问题。
      • 义类由对应函数从该词项的语类中求得
      • 句法规则规定各种成分结合以后的义类
    • 语义:解决语义所指问题,有一套语义规则,运用这套规则可以求出内涵逻辑表达式在特定模型中的语义所指。

Montague 语法有两个来源:N. Chomsky 的生成转换语法 和 Louis 的内涵逻辑学。采用内涵逻辑学来描述句子的深层结构,在句子的每一个层次上都可得出一个相应的内涵逻辑表达式,并以此来表示该句子深层结构的逻辑含义。从 (λx…x…)a 出发得到 …a… 这一性质称为 “λ-变换”, λ-变换是 Montague 语法转译计算的关键,生成语法得出的完全相同的树形图在 λ-变换后,可以得出不同的内涵逻辑表达式。

Montague 通过真值条件语义学、模型论语义学和可能世界语义学(Montague 语法的语义理论的三个特点),把自然语言所表现出来的意义介入内涵逻辑学中,从而建立了 Montague 语法的语义理论。由于将句法和语义结合,使得任何一个通过句法分析得到的表示句子的句法结构的树形图,都可以用 Montague 语法解释为相应的内涵逻辑表达式,从而表现出句子的语义内容。

Montague 在《普通英语中量化的特定处理》中提出了 PTQ 系统用以计算句子的语义值,步骤如下:

  • 选出有限片段的英语,从中提炼出包含 9 个派生语类的词典和 17 条句法规则,根据组合原则,从最简单的成分词汇开始,逐层组合成复杂成分
  • 片段英语的 17 条句法规则中的每一条都相应地对应着一条转译规则,将片段英语中的每一个语言成分转译成内涵逻辑语言中的一个内涵逻辑表达式,最后将复杂的语言表达式转译成复杂的内涵逻辑表达式
  • 根据内涵逻辑的语义解释规则,将内涵逻辑表达式在给定的模型下求出其语义值,即为该片段英语表达式的一个语义解释

Wilks 的优选语义学

1874 年,Y. A. Wilks 在研制英法机器翻译系统的基础上,提出了 “优选语义学”,它共有五种语义单位:义素、义式、裸模板、模板、超模板,并有从较小的单位到较大的单位的构造规则。义素构成义式以描写单词的语义,由义式构成裸模板和模板以描述简单句的语义,再由超模板描写更大的文句单位一直到句子的语义。

  • 义素:80 个语义单元,用以表示语义实体、状态、性质和动作,分为 五大类:语义实体、动作、性状、种类、格
  • 义式:由义素及左右圆括号构成,最重要的在最右端,称为义式的首部,直接或间接支配义式中其他义素。
  • 裸模板:由一个行为主体义式首部、一个动作义式首部和一个客体义式首部组成的能够直观解释的通的序列。
    • 裸模板提出了句子的主要成分——主语、谓语和直接宾语的语义类
    • 如果谓语是不及物动词,裸模板中宾语的位置用一个虚构节点 DTHIS 代替,叫作哑元
  • 模板:如果义式的首部能组成裸模板,那么这些义式可能依附于其上的其他义式所组成的序列,就称为该原文片段的一个模板。模板并不仅仅包括义式的首部,实际上是义式组成的网络,首部是其核心部分。
  • 超模板:把模板结合起来就形成超模板。两种结合方式:
    • 利用虚构的结点
    • 找出指代和照应关系

采用优选语义学进行语言自动分析的过程:

  • 切分:根据关键词(标点、连接词和介词)
  • 匹配:找出与切分段匹配的裸模板
  • 扩展:把裸模板扩展为模板的网络,切分段内部以模板为框架建立词与词之间的关系,如果上一步匹配到不止一个裸模板,那么在建立关系时要根据各个裸模板语义联系程度的不同情况进行优选
  • 捆绑:在各个模板之间建立联系,把模板捆绑为超模板,在切分段外部(切分段之间)建立联系。主要任务:
    • 建立模板之间的深层格的联系
    • 建立哑元与它所替代的词之间的联系
    • 解决遗留的歧义问题
    • 解决代词的指代问题

优选语义学特点:

  • 语言分析不经过形态和句法分析,都通过语义信息表示出来,摆脱了传统的句法分析框框
  • 各个片段的语义描写都可以用义素和括号统一进行

Schank 的概念依存理论

1973 年美国计算语言学家 R. Schank 提出,用于描述自然语言中的短语和句子的意义。

三条重要原理:

  • 意义相同的句子,无论属于什么语言,语义表达式只有一个
  • 蕴涵在一个句子里的任何为理解所必需的信息都应该在概念依存理论中得到显式表达,一般使用概念依存表达式:由若干个语义基元组成,语义基元分为基本行为和基本状态两种。
    • 基本行为 11 个:PTRANS(物体物理位置转移)、ATRANS(占有、物主或控制等抽象关系转移)、INGEST(使某种东西进入动物体内)、PROPEL(在某物上使用体力)、MTRANS(人与人或一个人身上的精神信息转移)、MBUILD(人根据旧信息加工成新信息)、MOVE、GRASP、EXPEL、SPEAK、ATTEND;基本行为的概念之间的关系叫做依存。基本状态数量很多。
    • 概念依存理论建立了五条推导因果关系的规则:
      • 行为可能引起状态改变
      • 状态可以使行为成为可能
      • 状态可以使行为成为不可能
      • 状态可以激发一个精神事件,行为也可以激发一个精神事件
      • 精神事件可以成为行为的原因
  • 在句子的意义表达式中,必须把隐晦地存在于句子中的信息尽量显现出来

概念依存表达式一般不依赖于句法,Schank 认为,概念依存理论具有一定的心理学效应,反映了人们认知活动的知觉概念。在概念依存理论原理的基础上,Schank 等提出了一些更高层次的知识结构:脚本、计划、目的和主题。

  • 脚本:用来描述人们活动的一种标准化事件序列,是人们对特定场合下可能出现的一些事件的固定顺序特有的一种集装知识。有两个项目特别重要:

    • 关键事件:首先要匹配关键事件,以便开始分析句子
    • 主要概念:脚本所叙述的故事的目的
  • 计划、目的和主题:在指定情况为了达到某个目标而必须(或可能)采取的行动序列,是另一类更一般化的集装知识。

    • 计划是故事中的角色为实现其目的(如去电影院)所采取的手段(如走到车站);计划还可以包括为实现某个一般目的(如去某地)所采取的手段(如开车、步行等)。计划集中起来构成计划库,计划库中存储着有关各种目的以及手段的信息。
    • 采用计划理解故事的过程:
      • 首先确定角色目的
      • 再确定导致主要目的之 D-目的
      • 然后再把角色的行动同存储着 D-目的之打算库相匹配,从而获得对故事的一定理解
    • 主题是我们的预见所赖以建立起来的背景信息,背景信息中一定包含着角色的某种目的。一个主题要列举一系列角色,说明这些角色所处情况以及为了处理这种包含于主题中的情况而必须采取的行动,而主题的目的是完成这些行动。
    • Schank 和 Abelson 提出了七种类型的目的,主要有:
      • A-目的或达成性目的
      • P-目的或保护性目的
      • C-目的或紧急性目的
    • 用计划、目的和主题这类知识结构理解一个故事的过程:
      • 用计划和主题这类知识结构去识别故事的目的
      • 利用计划找到满足该目的之子目的以及相应的实施行动
      • 在故事的相继输入中寻找上述子目的和行动,并据此对故事做出解释
  • 脚本、计划、目的和主题之间的关系:

    • 主题引起目的
    • 当目的被认出,并且其行动与该目的之实现相一致时,就可以引起计划
    • 脚本是事件的标准化模式
    • 脚本是特殊的,而计划是一般的
    • 计划的来源是脚本
    • 计划是表示人的目的之一种方法,这些目的隐含在脚本中,它们只表示行动
    • 脚本中有一个关键事件,要与输入的句子进行模式匹配;计划中没有关键事件,每一个计划归入一个目的之下。

采用脚本、计划、目的和主题,Schank 等先后建立了 MARGIE、SAM、PAM、MOP、FRUMP、IPP 等系统。

  • MARGIE 分为三部分
    • 概念分析程序:把英文句子转换成概念依存表达式
    • 推理程序:接收依存表达式,根据系统存储器中有关信息进行推理,推演出大量事实。推理知识在存储器中用语义网络表示
    • 文本生成程序:把概念依存表达式转为英文句子输出,两种方法
      • 分辨网络:用于区分不同词义,可以根据上下文选择恰当的单词
      • 扩充转移网络:把概念依存表达式转为线性单词符号序列,输出句子表层线性结构
  • SAM 和 PAM 采用脚本和计划理解简单故事。区别在建立概念依存表达式之后的处理过程。
    • SAM 采用故事与脚本相匹配的办法理解故事,匹配完成后就可以对故事做出总结
    • PAM 建立在计划基础上的,它的方法是确定故事中任务的目的,并且把而后的行动解释为实现这些行动的目的和 D-目的(直接目的)
  • 人们在理解故事中存在另一类知识结构,能同时容纳集装知识和抽象知识,叫作记忆组织包(MOP),MOP 中,各种不同环境共享的抽象知识存放在一个地方,以便不同的 MOP 调用。概念依存表达式、脚本、计划等属于静态记忆,而 MOP 则是具有自修改能力的动态记忆,它能把具体事件中获得的经验升华为抽象的一般性经验,反映了人类学习的过程。
  • Schank 认为传统分离的句法分析是不必要的,也不符合人们理解语言的心理过程。主张把句法和语义知识结合在一起,一次就把输入语句转换成某种机器的内部表示。这种分析方法叫作一体化的概念分析模型。MARGIE 的概念分析程序体现了这种思想,该程序经过扩充后成为 ELI(English Language Interpreter),充当许多故事理解系统的公共前端:把输入语句直接映射为概念依存表达式。ELI 采用的基本手段是 ”期望“:当一个人谈到或听到一个词时,他会预见某些别的词或者已经出现,或者即将相继出现。这种期望根据迄今已被理解的内容以及有关语言和世界的知识建立起来的。人们在阅读过程中,不断根据这样的期望预见下一步可能会读到什么,并利用它们来排除歧义和理解正读入的文本。
    • 第一个一体化程序是 FRUMP,通过对输入文本浏览来寻找它感兴趣的东西,这些东西往往是系统打算在故事的总结中陈述的那些重要信息。FRUMP 采用梗概脚本作为它的知识表示模型。整个理解程序是期望驱动的,附加在指定梗概脚本上的期望指明了脚本希望寻找的信息是什么。
    • FRUMP 的故事理解是根据实现设计好的梗概脚本的内容进行的,如果脚本设计时忽略了某些重要情节,理解就会出错。IPP 克服了这个缺陷,它采用 MOP 作为知识结构,抽象程度较高,并能够从读入的故事中自动地归纳出一般的结论来。它的词典中的词条分为立即分析的词、暂时跳过的词和完全忽略的词,处理故事时只可能忽略单词,不会证据忽略,这样就能发现和处理事先某些没有预见到的重要情节,有效克服了 FRUMP 的缺陷。IPP 论文:Generalization From Natural Language Text*
    • 其他系统:

本节后面提到的几个系统在内部的模块设计理念上非常具有启发性。MOP 在具体事件中获得一般性经验,其理念甚至超过了知识图谱;ELI 利用期望的方法,也很符合人类认知;FRUMP 和 IPP 利用梗概脚本提取信息在 NLP 中有非常广泛的应用场景。

Mel’chuk 的意义<=>文本理论

A. K. Zolkovski 和 I. A. Mel’chuk 20 世纪 60 年代提出。主张自然语言是建立意义和文本对应的逻辑工具。

三个基本假设:

  • 自然语言的意义和文本之间的对应是多对多的
  • 自然语言的意义和文本之间的对应可以采用形式化的逻辑关系来描述,这个逻辑工具应当反映自然的说话人的语言活动
  • 意义和文本之间关系复杂,所以在话语过程中,必须区分一些中间层次
    • 七个层次:语义表示、深层句法表示、表层句法表示、深层形态表示、表层形态表示、深层音位表示、表层音位表示
    • 六个模块:语义模块、深层句法模块、表层句法模块、深层形态模块、表层形态模块、音位模块

意义到文本的转化过程是从多维的图,经过二维的树,最后转化到一维的串的过程。

  • 语义表示:多维有向图
    • 语义素:结点上的标记,是一个语义单位,它的函项叫作语义行动元
    • 语义名:一般是具体名词,没有函项
    • 语义依存:语义素和它的行动元之间用箭头相连,这种连接叫作语义依存
  • 表层句法表示:二维依存关系树
    • 严格区分句法结构和形态结构
    • 句法结构只表示二维依存关系而不表示一维的前后线性关系
    • 与依存语法一致,与短语结构语法有差别
  • 表层形态表示:一维的符号串
    • 单词有顺序
    • 代词带有语法信息

意义<=>文本模型不是 ”生成“ 装置,而是 ”转换“ 装置,这是与 Chomsky 生成语法最重要的区别。主要工作原理是进行同义转换,在各个层次上生成大量同义结构,再经过各种过滤装置,筛选出合格文本。八种过滤器:

  • 一般类型过滤器:剔除语义合成结果中包含人造虚构词的深层句法结构
  • 同类过滤器:剔除同义结构中所有包含 ”空位“ 关键词的深层结构语法
  • 保障语义配价和句法配价饱和的过滤器:剔除不满足配价的深层句法结构
  • 限制单词或词组的组合性能的过滤器:剔除不合规则的词汇组合
  • 词序规则过滤器:剔除在一定语言环境下不合格的词序
  • 限制表层句法成分的过滤器:剔除在表层句法结构中不合格的句法成分
  • 限制形态或构词的过滤器:剔除在形态或构词上不合格的句法成分
  • 优化文本的过滤器:剔除在修辞上不合格的文本

巴黎第七大学的 S. Kahane 根据本理论提出了 ”转构语法“,主要功能是把意义-文本模型中不同层次上的结构集合对应起来,是一种 ”元语法的形式化模型“。

本理论从多维的意义到二维的句法再到一维的符号这种结构非常具有启发性,尤其是多维的意义图让多维的语言有了一种呈现方式,也许自然语言的表示本身就是图结构的。

词义排歧方法

排歧涉及上下文因素、语义因素、语境因素以及生活中的常识,是 NLP 最棘手的问题。常用的方法有:

  • 选择最常见义项:没有排歧功能
  • 利用词类:不同的词义往往属于不同的词类
  • 基于选择限制:“观其伴而知其意”
    • 使用两方面知识
      • 论元的语义类型分类
      • 论元对于谓词的选择限制
    • 局限性
      • 当选择限制一般性太强时,很难决定有关词的选择限制范围:what kind of dishes? (碟子 or 菜)
      • 在否定句子的时候,否定关系违反选择限制,但语义合法:You can’t eat gold.
      • 不寻常事件违反限制但句子合法:He ate glass in the trial.
      • 有比喻或借喻:He wants to kill the USA.
    • 改进:
      • 1987 年,Hirst 建议把选择限制看作一种优选关系
      • 1997 年,Resnik 提出 “选择联想”:谓词与该谓词所支配论元的类别之间的联想强度的概率测度
  • 自立的鲁棒法:依靠词类标注工作,力求把对于信息的要求减到最低限度
    • 步骤如下:
      • 选择相关语言学特征
      • 根据算法要求对特征进行形式化描述
    • 用来训练的语言学特征分类:
      • 搭配特征:对目标词左右的上下文编码
      • 共现特征:不考虑相邻词的位置信息,单词本身可作为特征
  • 有指导的学习方法(监督)
    • 朴素 Bayes 分类法:在给定上下文环境下,计算多义词的各个义项中概率最大的义项
    • 决策表分类法:根据共现词的等价类的不同制定决策表,表中项目的排列根据训练语料的特征决定
  • 自举法(半监督):不需要训练大量语料,每一个词目的每一个义项都依靠少量的标记好的实例来判别,以这些实例作为种子,采用有监督训练得到初始分类,再利用初始分类从未训练的语料中抽取训练语料,反复进行
    • 1991 年,Hearst 用简单的手工标记方法获得一个小的实例集合
    • 1995 年,Yarowsky 提出 “每个搭配一个义项” 的原则:为每一个义项选择一个合理的标示词作为种子。选择种子的途径有:机器可读词典;统计方法根据搭配关系选择。
  • 无指导的方法(无监督):根据相似度(从共现次数的分布可以看出)对语料聚类。
    • 凝聚法是常用的方法,语料中每个实例被指派给一个类聚,自底向上陆续把两个最相似的类聚结合成新的类聚,直到达到预期目标为止
    • 不足:
      • 训练语料中无法得知什么是正确的义项
      • 所得类聚往往与训练实例的义项在性质上差别很大
      • 类聚的数量几乎总与需要消歧的目标词的义项的数量不一致
  • 基于词典的方法:词典提供义项及义项的定义上下文,是一种利用既存知识源,判断两个词亲和程度时,比较它们在词典的定义中同时出现的词语情况。排歧时,把多义词的各个义项的定义进行比较,选择具有最大覆盖上下文的义项作为正确的义项。如 pine cone,cone 是多义词,把词典中 pine 的定义分别与 cone 的定义比较,选择重合最多的义项作为 cone 的义项。

这一节虽然内容有点相对古老,不过思想依旧有意义。

小结

本章都是关于语义(即如何理解自然语言)的形式模型,主要包括:

  • 义素分析法
    • 20 世纪 50 年代,美国人类学家 F. G. Lounsbury 和 W. H. Goodenough 在研究亲属词的含义时提出了义素分析法;20 世纪 60 年代初,美国语言学家 J. J. Katz 和 J. A. Fodor 提出了解释语义学,将义素分析法引入语言学,为生成转换语法提供语义特征。
    • 义素是意义的基本要素,它就是词的理性意义的区别特征。词的理性意义是一束语义特征(义素)的总和。
    • 一组词的义素可以用义素矩阵表示,纵坐标表示词,横坐标表示义素,纵横坐标相交点注以 + 或 - 号或其他表示方法。
  • 语义场
    • 20 世纪 30 年代初,德国学者 J. Trier 提出系统的语义场理论,1992 年,北大贾彦德在《汉语语义学》中系统提出了汉语的语义场理论,北京语言大学张普提出 “场型” 的概念。
    • 语义场是词义形成的系统,它是基于概念的关系场,是词义与词义之间构成的一种完全虚化、非物质的空间领域。若干个意义上紧密相联的词义,通常归属于一个总称之下,就构成了语义场。语义场可进一步分为词汇场和联想场。词汇场是静态的,表现为词义与词义之间的组合关系。这里的语义场主要指词汇场。
    • 汉语的场型(不同类型的语义场)包括:
      • 分类场型:基本场型,一般是多层次的
      • 构件场型:基本场型,下位是上位的构件
      • 有序场型:基于分类场型和构件场型的特殊场型,所有平位是有序的
      • 对立场型:特殊场型,平位的词义之间存在对立关系
      • 同义场型:特殊场型,同一场型中,同位和变位的理性意义完全相同,只是附属于理性意义的风格、色彩等方面义素不同
    • 场与场之间的关系有:嵌套关系、交叉关系、传递关系、联想关系
  • 语义网络
    • 1972 年,美国人工智能专家 R. F. Simmons 和 J. Slocum 首先将语义网络用于自然语言理解系统中。1977 年,美国人工智能学者 G. Hendrix 提出了分块语义网络的思想,把语义的逻辑表示与 “格语法” 结合起来,把复杂问题分解为若干简单的子问题,每个子问题以一个语义网络表示。
    • 语义网络可用有向图表示,一个语义网络就是由一些以有向图表示的三元组:(结点1,弧,结点2)连接而成的。三元组可写成二元谓词:P(个体1,个体2)
    • 语义网络可表示一个事件,事件由若干个概念组合所反映的客观现实,可以分为叙述性事件、描述性事件和表述性事件三种。语义网络表述事件时,结点之间的关系还可以为施事(AGENT)、受事(OPATIENT)、位置(LOCATION)、时间(TIME)等。
    • 语义网络的推理机制一般基于网络的匹配。根据提出的问题构建局部网络,查询解答的过程就是查询局部网络到网络知识库的匹配操作。知识图谱描述真实世界中存在的各种实体或概念,每个属性-值偶对用来刻画实体的内在特性,而关系用来连接两个实体。可以看作一个巨大的语义网络。
  • Montague 语法
    • 1970 年前后美国数理逻辑学家 R. Montague 等把内涵逻辑应用于自然语言的研究,并把生成语法与内涵逻辑这两个领域的研究集中提炼为 Montague 语法。
    • 在 Montague 语法里,一个句子的句法形式、内涵逻辑表达式和语义所指都是从基本单位开始,通过句法规则、转译规则和语义规则,从小到大逐段确定的。句法、转译和语义三大部分是同态的。有一条句法规则就有一条转译规则把它处理的短语转译成内涵逻辑表达式,然后再由一条语义规则来确定这个内涵逻辑表达式的语义。歧义问题通过不同的组合方式和运用不同的句法、语义规则来解决,这是 Montague 语法的 “规则对规则假说”。
      • 句法:包括一套语类和一套句法规则。功能是把来自词库的词语组成句子。
      • 转译:包括一套转译规则,把短语转译成内涵逻辑表达式。
      • 语义:以内涵逻辑为基础建立的。内涵逻辑包括句法和语义两方面
    • Montague 语法有两个来源:N. Chomsky 的生成转换语法 和 Louis 的内涵逻辑学。采用内涵逻辑学来描述句子的深层结构,在句子的每一个层次上都可得出一个相应的内涵逻辑表达式,并以此来表示该句子深层结构的逻辑含义。从 (λx…x…)a 出发得到 …a… 这一性质称为 “λ-变换”, λ-变换是 Montague 语法转译计算的关键,生成语法得出的完全相同的树形图在 λ-变换后,可以得出不同的内涵逻辑表达式。
    • Montague 通过真值条件语义学、模型论语义学和可能世界语义学(Montague 语法的语义理论的三个特点),把自然语言所表现出来的意义介入内涵逻辑学中,从而建立了 Montague 语法的语义理论。由于将句法和语义结合,使得任何一个通过句法分析得到的表示句子的句法结构的树形图,都可以用 Montague 语法解释为相应的内涵逻辑表达式,从而表现出句子的语义内容。
  • Wilks 优选语义学
    • 1874 年,Y. A. Wilks 在研制英法机器翻译系统的基础上,提出了 “优选语义学”,它共有五种语义单位:义素、义式、裸模板、模板、超模板,并有从较小的单位到较大的单位的构造规则。
    • 采用优选语义学进行语言自动分析的过程:
      • 切分:根据关键词(标点、连接词和介词)
      • 匹配:找出与切分段匹配的裸模板
      • 扩展:把裸模板扩展为模板的网络,切分段内部以模板为框架建立词与词之间的关系,如果上一步匹配到不止一个裸模板,那么在建立关系时要根据各个裸模板语义联系程度的不同情况进行优选
      • 捆绑:在各个模板之间建立联系,把模板捆绑为超模板,在切分段外部(切分段之间)建立联系。
  • Schank 概念依存理论
    • 1973 年美国计算语言学家 R. Schank 提出,用于描述自然语言中的短语和句子的意义。
    • 三条重要原理:
      • 意义相同的句子,无论属于什么语言,语义表达式只有一个
      • 蕴涵在一个句子里的任何为理解所必需的信息都应该在概念依存理论中得到显式表达,一般使用概念依存表达式:由若干个语义基元组成,语义基元分为基本行为和基本状态两种。
      • 在句子的意义表达式中,必须把隐晦地存在于句子中的信息尽量显现出来
    • 概念依存表达式一般不依赖于句法,Schank 认为,概念依存理论具有一定的心理学效应,反映了人们认知活动的知觉概念。在概念依存理论原理的基础上,Schank 等提出了一些更高层次的知识结构:脚本、计划、目的和主题。
      • 脚本:用来描述人们活动的一种标准化事件序列,是人们对特定场合下可能出现的一些事件的固定顺序特有的一种集装知识。
      • 计划、目的和主题:在指定情况为了达到某个目标而必须(或可能)采取的行动序列,是另一类更一般化的集装知识。
      • 计划是故事中的角色为实现其目的(如去电影院)所采取的手段(如走到车站);计划还可以包括为实现某个一般目的(如去某地)所采取的手段(如开车、步行等)。计划集中起来构成计划库,计划库中存储着有关各种目的以及手段的信息。
      • 采用计划理解故事的过程:首先确定角色目的,再确定导致主要目的之 D-目的,然后再把角色的行动同存储着 D-目的之打算库相匹配,从而获得对故事的一定理解。
      • 主题是我们的预见所赖以建立起来的背景信息,背景信息中一定包含着角色的某种目的。一个主题要列举一系列角色,说明这些角色所处情况以及为了处理这种包含于主题中的情况而必须采取的行动,而主题的目的是完成这些行动。
      • Schank 和 Abelson 提出了七种类型的目的。
      • 用计划、目的和主题这类知识结构理解一个故事的过程:
        • 用计划和主题这类知识结构去识别故事的目的
        • 利用计划找到满足该目的之子目的以及相应的实施行动
        • 在故事的相继输入中寻找上述子目的和行动,并据此对故事做出解释
  • Mel’chuk 意义<=>文本理论
    • A. K. Zolkovski 和 I. A. Mel’chuk 20 世纪 60 年代提出。主张自然语言是建立意义和文本对应的逻辑工具。
    • 三个基本假设:
      • 自然语言的意义和文本之间的对应是多对多的
      • 自然语言的意义和文本之间的对应可以采用形式化的逻辑关系来描述,这个逻辑工具应当反映自然的说话人的语言活动
      • 意义和文本之间关系复杂,所以在话语过程中,必须区分一些中间层次
    • 意义到文本的转化过程是从多维的图,经过二维的树,最后转化到一维的串的过程。
    • 意义<=>文本模型不是 ”生成“ 装置,而是 ”转换“ 装置,这是与 Chomsky 生成语法最重要的区别。主要工作原理是进行同义转换,在各个层次上生成大量同义结构,再经过各种过滤装置,筛选出合格文本。八种过滤器:一般类型过滤器、同类过滤器、保障语义配价和句法配价饱和的过滤器、限制单词或词组的组合性能的过滤器、词序规则过滤器、限制表层句法成分的过滤器、限制形态或构词的过滤器、优化文本的过滤器。
  • 词义排歧方法
    • 排歧涉及上下文因素、语义因素、语境因素以及生活中的常识,是 NLP 最棘手的问题
    • 选择最常见义项:没有排歧功能
    • 利用词类:不同的词义往往属于不同的词类
    • 基于选择限制:“观其伴而知其意”,使用两方面知识:论元的语义类型分类;论元对于谓词的选择限制
    • 自立的鲁棒法:依靠词类标注工作,力求把对于信息的要求减到最低限度,用来训练的语言学特征分类分为:搭配特征和共现特征
    • 有指导的学习方法(监督),包括朴素 Bayes 分类法决策表分类法
    • 自举法(半监督):每一个词目的每一个义项都依靠少量的标记好的实例来判别,以这些实例作为种子,采用有监督训练得到初始分类,再利用初始分类从未训练的语料中抽取训练语料,反复进行
    • 无指导的方法(无监督):根据相似度(从共现次数的分布可以看出)对语料聚类
    • 基于词典的方法:词典提供义项及义项的定义上下文,排歧时,把多义词的各个义项的定义进行比较,选择具有最大覆盖上下文的义项作为正确的义项

本章的很多思想非常具有启发性,比如语义网络的构建和推理(涉及知识图谱)、基于概念依存理论的 MOP 和 ELI、意义<=>文本理论的多维意义到二维句法再到一维符号的结构表达,最后的词义排歧方法也是涵盖全面,虽然时间上早了些,但方法却依然在使用。