自然语言计算机形式分析的理论与方法笔记(Ch06)

第六章:基于格语法的形式模型

Fillmore 的格语法

美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段:

  • 20 世纪 60 年代末到 70 年代初:只用格分析平面做工具,把句子的底层语义表达跟句子描述的情景的特点联系起来,不考虑深层语法关系平面。
  • 20 世纪 70 年代中期以后:增加了深层语法关系平面来解释语义和句法现象。

第一阶段

Fillmore 认为,自然语言的句子中存在着一个体现其主题的深层结构,这个深层结构由一个作为中心成分的动词和若干个名词短语组成,每个名词短语都以一种特定的关系与中心动词发生联系,这些联系就是 ”格关系“。

这里的格不是传统语法中的格,而是深层次的格。传统的格与名词的形态变化联系在一起,格语法用格来表示深层结构中的句法语义关系。主语、宾语等都是表层结构的概念,在深层结构需要的是施事、受事、工具、处所等格的关系。

在格语法中,一个句子包括情态(M)和命题(P)两部分:S → M + P

  • P 可以扩展为一个动词和一个或多个格的范畴:P → V + C1 + C2 + … + Cn,每一个格的范畴又可以表示为一个格标(K)加上一个名词短语(NP):C → K + NP。
  • M 与传统意义的情态(主要表示可能、必然等)不同,主要是指动词的时、体、态以及肯定、否定、祈使、疑问、感叹、陈述等。

格的概念包括一整套带有普遍性的、可以假定是内在的概念,相当于人类对在周围发生的事所能做出的某些类型的判断。

  • 施事格(A):表示由动词确定的动作能察觉到的典型的动作发生者
  • 工具格(I):表示对于动词所确定的动作或状态而言,作为某种因素而牵涉到的、无生命的力量或客体
  • 承受格(D):表示由动词确定的动作或状态所影响的有生物
  • 使成格(F):表示由动词确定的动作或状态所形成的客体或有生物,或者是理解为动词意义的一部分的客体或有生物
  • 方位格(L):表示由动词确定的动作或状态的处所或空间方向
  • 客体格(O):表示由动词确定的事物或状态所影响的事物,它是由名词所表示的事物,其作用由动词本身的词义确定
  • 受益格(B):表示由动词所确定的动作为之服务的有生命的现象
  • 源点格(S):表示由动词所确定的动作所作用到的事物的来源或发生位置变化过程中的起始位置
  • 终点格(G):表示由动词所确定的动作所作用到的事物的终点或发生位置变化过程中的终端位置
  • 伴随格(C):表示由动词确定的、与施事共同完成动作的伴随者

格语法着重研究了名词和动词的特征。open 的格框架可以简写为:+[—O (I) (A)],表示这个动词必须用 O(客体格),I 和 A 则是时有时无的。

由深层结构中的深层格转化为表层结构中的主语的过程叫做 ”主语化“,在主语化时,如有 A,则 A 为主语;无 A 有 I,则 I 为主语;无 A I,则 O 为主语。

第二阶段

主要做了如下修改:把第一阶段表示格角色的结构叫做底层结构,在转换为表层结构前还必须经过深层主语和深层宾语等语法关系的分配。每个句子就有格角色和语法关系两个平面,两个平面把句子和句子所描述的事件联系起来,解释句子的语义和句法现象。

句子描述的是场景,场景中各参与者承担格角色,构成句子的底层结构。底层结构经过 ”透视域“ 的选择,使得一部分参与者进入透视域,成为句子的核心成分。每一个核心成分根据突出的等级体系确定其语法关系,其他参与者不一定能进入句子,即使它们出现在句子中,也只能成为外围成分。核心成分突出等级确定原则(从上到下递减):

  • 主动成分级别高于非主动成分
  • 原因成分级别高于非原因成分
  • 作为人的(或有生命的)感受者的级别高于其他成分
  • 蒙受改变的成分的级别高于未蒙受改变的成分
  • 完全的或个性化的成分的级别高于一个成分的某一部分或无个性化的部分
  • 实际形体的级别高于背景成分
  • 有定成分的级别高于不定成分

场景是语言之外的真实世界,如物体、事件、状态、行为、变化,以及人们对于真实世界的记忆、感觉、知觉等语言中的每一个词、短语、句子都是对场景的描述。当人们说出一个词、短语、句子或一段话语,都是在确定一个场景,并且突出或强调那个场景中的某一部分。

书中对 ”写“ 的例子比较有趣。

语义联系着场景,但场景并不等于语义,场景必须通过语言使用者的透视才能进入语言,才能与语义发生联系。我们说出每一个句子或一段话语都有一个特定的透视域,在一段话语的任何一个地方,我们都是从一个特殊的透视域去考虑一个场景。当整个场景都在考虑之中的时候,我们一般只注意场景的某一部分。

Fillmore 的框架网络

动词的语义角色必须在动词的词典条目中列出,从潜在的概念结构是不能预测的。因此,需要列出每个动词的句法和语义组合的可能性,通过 ”框架“ 来描述。20 世纪末,Fillmore 提出了 ”框架语义学“,框架网络成了在格语法的基础上进一步发展起来的另一个自然语言处理的形式模型。框架网络根据框架语义学的理论,依靠语料库的支持,对每一个词位的每一个含义都要详尽地描述它的语义和句法的各种结合可能性,也就是它的配价。

框架语义学的中心思想是词的意义的描述必须与语义框架相联系。框架是信仰、实践、制度、想象等概念结构和模式的图解表征。框架网络的任务:

  • 描述给定词元所隶属的概念结构或者框架
  • 从语料库中抽取包含某个词的句子,并从中挑选能够描述要分析的具有某种给定意义的词元的例子
  • 通过把与框架相关的标记(框架元素:情景实例中的事件和参与者)指派到包含词元的句子中的短语上,使挑选的句子得到标注
  • 准备最终的标注总结报告,简明显示每个词元在组合上的可能性,这些被称作 ”配价描述“

语义框架中各个成分由词汇单元的意义联系起来。

框架网络区分了中心框架元素(core FEs)和非中心框架元素(non-core FEs),主要是语义的,关注某个概念对于框架的意义理解是否必要。在框架网络中,对于相关动词的基本的配价的描述只包括那些中心框架元素。

每一个框架是框架元素的集合,包括框架的参与者和道具,它们是题元角色。词汇单元的框架语义要描述在所给定的含义下,框架元素的结合方式和框架元素在框架中的分布情况。

每一个含义都要描述它的配价,配价不仅要表示出框架元素组合方式的集合信息,而且还要表示出在有关语料库中检验过的语法功能信息和词组类型信息。

框架网络数据库既可以作为词典,也可以作为叙词表:

  • 作为词典,单词条目信息包括:
    • 单词的定义
    • 标注好的例句
    • 框架元素表:说明框架元素在标注报告中的出现情况及它们表示的句法关系
    • 配价模式:说明该单词可以具有的配价模式,并说明每一个配价模式中的框架元素相应的词组类型和句法功能
    • 索引
  • 作为叙词表,每一个单词都与它们所参与的语义框架相链接,而框架反过来又与词表和其他相关的框架相链接

框架网络中的每一个条目要列出该条目的所有论元,包括题元角色及它们的词组类型(如 NP,PP)和语法功能(如 Subj,Obj)。

框架网络包括若干个领域,每一个领域又包括若干个框架,每一个框架由若干题元角色来定义。

值得注意的是,一个短语的句法核心并不总是最重要的框架唤起者,依存短语的句法核心也不总是这些短语的意义的最重要的指示者。这些现象包括:

  • 支撑动词:一个动词的句法核心在语义方面作用很小,其主要框架引介者是与支撑动词有关的名词,如 have,do,make,take,give 等轻动词,使用频率高,与大量事件名词搭配,但对于名词唤起的场景几乎没有语义贡献
  • 零形式框架元素:有时,核心框架元素既不是谓词的依存成分,也不能通过槽填充得以发现。因此,明显体会得出的概念成分在句子中却没有相应的形式,这种情况叫做零形式框架元素,有三种:
    • 结构零形式框架元素(CNI):如祈使句中省略的主语、被动句中省略的 by 短语中的施事
    • 有定零形式框架元素(DNI):缺失的元素一定在篇章或者上下文中已经理解了的
    • 无定零形式框架元素(INI):缺省的元素的自然类型或语义类型都能够被理解,没有必要找回或建立一个特定的篇章所指
  • 透明名词:一个名词短语的句法核心成分代表了数量成分、类型或者容器,它的补足语则包含了这个名词短语的语义核心
  • 框架元素融合:与两个框架元素相关的信息由一个成分来表达

软件从标注语料库中自动生成两个包括:

  • 词元标注报告
    • 框架元素表
    • 标注例句
    • 配价模式
  • 词条报告
    • 框架元素句法实现表
    • 词元的配价模式表

资源:Welcome to FrameNet! | fndrupal

小结

本章主要介绍了基于场景意义理解的格语法形式模型。

  • 格语法,美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段:

    • 20 世纪 60 年代末到 70 年代初:只用格分析平面做工具,把句子的底层语义表达跟句子描述的情景的特点联系起来,不考虑深层语法关系平面。
      • Fillmore 认为,自然语言的句子中存在着一个体现其主题的深层结构,这个深层结构由一个作为中心成分的动词和若干个名词短语组成,每个名词短语都以一种特定的关系与中心动词发生联系,这些联系就是 ”格关系“
      • 在格语法中,一个句子包括情态(M)和命题(P)两部分:S → M + P
      • 格的概念包括一整套带有普遍性的、可以假定是内在的概念,相当于人类对在周围发生的事所能做出的某些类型的判断。
    • 20 世纪 70 年代中期以后:增加了深层语法关系平面来解释语义和句法现象。
      • 把第一阶段表示格角色的结构叫做底层结构,在转换为表层结构前还必须经过深层主语和深层宾语等语法关系的分配。每个句子就有格角色和语法关系两个平面,两个平面把句子和句子所描述的事件联系起来,解释句子的语义和句法现象。
      • 句子描述的是场景,场景中各参与者承担格角色,构成句子的底层结构。底层结构经过 ”透视域“ 的选择,使得一部分参与者进入透视域,成为句子的核心成分。
  • 框架网络

    • 动词的语义角色必须在动词的词典条目中列出,从潜在的概念结构是不能预测的。因此,需要列出每个动词的句法和语义组合的可能性,通过 ”框架“ 来描述。20 世纪末,Fillmore 提出了 ”框架语义学“,框架网络成了在格语法的基础上进一步发展起来的另一个自然语言处理的形式模型。框架网络根据框架语义学的理论,依靠语料库的支持,对每一个词位的每一个含义都要详尽地描述它的语义和句法的各种结合可能性,也就是它的配价。
    • 框架语义学的中心思想是词的意义的描述必须与语义框架相联系。框架是信仰、实践、制度、想象等概念结构和模式的图解表征。
    • 框架网络中的每一个条目要列出该条目的所有论元,包括题元角色及它们的词组类型(如 NP,PP)和语法功能(如 Subj,Obj)。
    • 框架网络包括若干个领域,每一个领域又包括若干个框架,每一个框架由若干题元角色来定义。
    • 一个短语的句法核心并不总是最重要的框架唤起者,依存短语的句法核心也不总是这些短语的意义的最重要的指示者。这些现象包括:
      • 支撑动词
      • 零形式框架元素
      • 透明名词
      • 框架元素融合

这一章看完能对 NLP 处理中的语义角色分析有一些了解,可以发现彼时语料库已经逐渐开始在自然语言处理中崭露头角,相关的研究成果也有资源能够使用。