自然语言计算机形式分析的理论与方法笔记(Ch05)

第五章:基于依存和配价的形式模型

配价概念的起源

  • 12 世纪,语言学家 Petrus Helias 提出 “动词中心说”,指出了动词对于句子成分的要求,隐含了 “配价” 的概念。
  • 1781 年,德国语言学家 Johann Werner Meiner 将谓语(动词)分为一价动词、二价动词和三价动词,很接近 “配价” 了。
  • 1934 年,奥地利语言学家 Karl Bühler 提到 “空位”(某一词类的词在自己周围辟开一个或一个空位,这些空位必须由其他类型的词来填补)概念,揭示了 “配价” 的本质,也被认为是配价理论研究的先驱。
  • 1948 年,苏联语言学家 Kacnel’son 首次提出 “配价” 这个术语:词在句中以一定方式出现以及与其他词组合的这种特性称为 “句法配价”。
  • 40 年后,Kacnel’son 对配价的理解有了变化:配价可以被定义为一种包含在词的词汇意义中的句法潜力,这意味着这种可与其他词产生关系的能力是由实词决定的。用配价来揭示那些隐藏在词汇意义里面,需要用一定类型的词在句子中完善词义的东西。所以不是所有实词都有配价,只有那些本身让人感到表达不完整并且需要使其完整的词,才具有 “配价”。他特别强调配价的 “潜在性”。
  • 1949 年,荷兰语言学家 A. W. de Groot 系统描述了建立在配价概念基础上的句法体系。他认为词类具有不同的句法配价,配价是被其他词所限定或限定其他词的可能性或不可能性,所有词类都有配价。这是一种 “泛配价” 的观点。

Tesnière 的依存语法

依存语法又称 “从属关系语法”,由法国语言学家 L. Tesnière 提出,他的著作让 “配价” 这个术语广为人知,被称为 “配价理论之父”。依存语法最基本的概念是 “关联” 和 “转位”。

关联

两个单独的形式通过句法联系起来表达,这种联系就叫 “关联”,类似化合物与组成的元素。

关联要服从于层次原则,即要建立起句子中词与词之间的依存关系,这种关系用 “图式” 表示。层次原则的一个必然推论是:所有的依存成分都依存于其支配者。

结构顺序和线性顺序不同,前者是二维的,后者是一维的,句法理论中一个重要问题是确定那些把一维线性顺序改变为二维结构顺序或相反的规则。

在表示句子结构顺序的图式中,直接处于动词结点之下的是名词词组和副词词组,前者形成 “行动元”,后者形成 “状态元”。

  • 状态元是含义不言自明的。状态元的数目可以是无限的。
  • 行动元的含义则必须加以界说。行动元是某种名称或某种方式的事或物,可以通过简单的名称或消极的方式来参与过程。行动元的数目不得超过三:主语、宾语 1、宾语 2。

“在大部分欧洲语言中占中心地位的动词结点代表了一出完整的小戏,有剧情,大多也有人物和场景”,剧情、人物、场景分别对应了动词、行动元和状态元。

行动元的数目决定了动词的配价的数目:

  • 没有行动元:零价动词
  • 一个行动元:一价动词
  • 两个行动元:二价动词
  • 三个行动元:三价动词

不必总是要求动词依照配价带全所有的行动元,或者说让动词达到饱和,有些价可以不用或空缺。

还有一种潜在关联,是语义上的关联而不是结构上的,在图式中用虚线表示。

转位

Tesnière 提出了四个基本词类:动词(I)、名词(O)、形容词(A)、副词(E),第一级是动词,第二级是名词和副词,第三级是形容词和副词,第四级是副词。

转位就是词类的转换,分为一度转位和二度转位。如果转位的被转位者是名词、形容词和副词,这种转位就是一度转位;如果被转位者是动词就是二度转位(如动词被转位为名词)。

在一度转位和二度转位内部还有简单转位和复杂转位。如果转位只是一个成分转位到另一个成分,就是简单转位;如果转位可连续从一个成分到另一个成分再到其他成分,就是复杂转位。

转位有六种类型:O>A, O>E, A>O, A>E, E>O, E>A,转位者或者是介词,或者是后缀,或者是加标记,也可以为空,分别记为 PREP, SUFF, INDICE 和 ∅。

依存语法在自然语言处理中的应用

与短语结构语法相比,依存语法没有词组这个层次,每一个结点都与句子中的单词相对应,能直接处理句子中词与词之间的关系,而结点数目大大减少,便于直接标注词性。

短语结构树在确定结点依存关系后,可以转为依存树:

  • 从叶节点开始,首先把表示具体单词的结点归结到表示词类的结点上
  • 自底向上把主词(处于支配地位的词)归结到父结点上
  • 把全句的中心主词归结到根节点上

学者对依存语法的研究:

  • 1960 年,美国语言学家 D. G. Hays 提出依存分析法,力图从形式上建立句中词与词之间的依存关系,提出了3 种规则。

  • 1970 年,美国语言学家 J.Robinson 提出了依存语法的 4 条公理。

  • 1987 年,K. Schubert 从语言信息处理角度出发,提出了用于语言信息处理的依存语法 12 条原则。

  • 作者提出依存树应该满足的 5 个条件:

    • 单纯结点:所有结点都代表句中出现的词
    • 单一父结点:除了根结点,所有结点都只有一个父结点
    • 独根结点:只能有一个根结点
    • 非交:树枝不能彼此相交
    • 互斥:支配关系和前于关系互斥

    注:依存关系可以用树形图表示,叫做 “依存树”,树中结点之间的关系主要有支配关系和前于关系。

用依存树进行自动生成时,必须把依存树转为句子,但从支配关系不能直接推出前于关系,所以还需按照自然语言中词序的特点,提出适当的生成规则。这方面各种自然语言的生成规则是不尽相同的。相比下,短语结构语法的成分结构树直接地反映了单词顺序。

1984 年,英国语言学家 Richard Hudson 提出了 “词语法”,是一种建立在依存语法基础上的形式语法。

  • 在词语法里,语法就是由一种语言所有的词构成的网络,语法和词汇没有本质区别,只不过前者处理的是一般性模式,后者描述的是有关单个词素的事实。在、
  • 在词语法网络中,单词之间的关系有 isa 关系、part 关系和各种依存关系

Stanford Parser 自动句法分析系统既可以进行短语结构分析,也可以进行依存分析。在依存分析时,使用谓词逻辑表达式表示支配词和从属词之间的依存关系:谓词(支配词,从属词)。

配价语法

德国的配价语法分别称为:莱比锡学派和曼海姆学派。

莱比锡学派的代表人物是 Gerhard Helbig,该学派主要贡献在配价理论方面:

  • 配价是指动词及受其支配成分之间的抽象关系;句法配价是指动词在其周围开辟一定数量的空位,并要求用必有或可选共演成分填补的能力。
  • Helbig 提出了 “补足语” 和 “说明语” 的概念,大致相当于 Tesnière 的行动元和状态元。
  • Helbig 还认为应该区分必有补足语和可有补足语。

Zifonun 等引入了一种判定补足语、说明语和可有补足语的方法:

  • R-Test:删除测试,不能删除判定为必有补足语
  • F-Test:替换测试,将测试对象用一个变元替换,被删掉的成分和带不定词的句子间形成推论关系;不能替换判定为说明语,可以替换进行 An-Test
  • An-Test:改写测试,把被测试的成分改写为 und das X,句子不成立(不能改写),则 X 为可有补足语

曼海姆学派的核心人物是德语研究所的 Ulrich Engel,主要贡献在于研究并实践了是否可以用依存的原则来完整地描写一种语言中的主要现象。

  • Engel 把价理解为动词在次范畴化时的一种支配能力。
  • 他认为补足语和说明语的差别在于,补足语只是某个词类在次范畴化时所具有的,而一切的词类都可以有说明语。必有成分必然是补足语,可有成分可以是说明语或补足语,由支配者决定。

配价可以从逻辑、句法和语义三个层次认识:

  • 配价逻辑:由词义的逻辑关系决定的配价。
    • 价是词义的一种特性,是词义开辟的一定数量的空位。
    • 价体现的是一种逻辑语义关系。
  • 句法配价:逻辑配价在具体语言中的表现形式。
  • 语义配价:充当补足语的词语在语义上是否与动词相容。

Helbig 总结了构造配价词典条目的六个步骤:

  • 分析动词对应的谓词的逻辑语义结构,找出形成完整谓词结构的可词汇化论元的数量
  • 标出动词具有的语义特征
  • 为动词标示语义格,即为第一步得到的论元赋予明确的语义角色
  • 对可词汇化的论元进行语义指称分析,并进行义位标识
  • 处理从语义层到句法层的映射问题,要考虑两种情况:按照句子的功能成分(如主语、宾语等);按照句子成分的形态表示(如名词是什么格,介词短语的类型等),是对行动元(补足语)的定性描述
  • 给定词项行动元(补足语)的定量描述,即给出动词项的价数,应区分必有和可有补足语

曼海姆学派的 Schumacher 对德语动词处理办法如下:

  • 给出动词的句子结构式
  • 给出该结构式的句子格式
  • 用改写法对该句子格式进行释义
  • 对句子格式中出现的各种补足语进行语义描述
  • 讨论动词构成被动态的能力
  • 在对动词释义过程中,实例引证是其中一个中心部分
  • 从构词法角度探讨动词派生的可能性
  • 每一个词典项,只对应动词的一个义项,但需要本动词项中指出其他义项的所在

Helbig 和 Schumacher 的共性是都含有句法和语义要素,配价结构没有体现表层线性顺序。不同是:Helbig 从语义到句法,语义是确定价的主要手段;Schumacher 从句子的表层(句法)得到句子结构式,语义的作用更多的是选择限制。

配价语法在自然语言处理中的应用

捷克布拉格大学的计算语言学家 Petr Sgall,Jarmila Panevová 和 Eva Hajicová 提出了功能生成描述(Functional Generative Description,FGD),是一种多层级的自然语言处理的形式模型,配价占核心地位。

  • 如果将依存视为一种基本关系,那么词汇单元的句法特性就可以依据其可有或必有的依存成分进行描述,这种描述可包括词汇组合的限制,它们与句子表层结构的关系等
  • 2003 年发布 Vellex 1.0(捷克语动词配价词表)

Stanley Starosta 于 20 世纪 70 年代初创立了一种句法理论:Lexicase,可以有效处理配价分析中单词的线性顺序。

  • 语法就是词表。一个词与语法有关的属性都在其词汇矩阵里得到了说明。这些属性限定了词可以出现的环境(线性环境+依存环境)。
  • 上下文属性作为词汇表示的组成部分使得短语结构语法规则不再有存在的必要,上下文属性申明哪些词可以作为依存者依附到给定的词身上形成句子,上下文属性既可属于语法,也可属于语义和词法。
  • 配价在 Lexicase 中的定义:Lexicase 里的大多数词都用了一种或多种上下文属性来标识,这就限定了它们的价。价属性表明了该词和其他词的组合潜力,包括必需和可选的依存连接、线性前置等要求。

德国计算语言学家 Hellwig 把配价和合一结合起来,提出了 “依存合一语法”(Dependency Unification Grammar,DUG),配价是其核心概念之一。

  • 句法差不多就是词的组合能力。词不仅是一种已有的结构模式的填充者,也是这种模式的真正源泉。
  • 一个核心元素和一些可以完善核心元素的成分形成了一个标准的句法结构。
  • 可将词分为:表示关系的和指代事物的两类。

2007 年,作者与刘海涛提出了 “概率配价模型理论”(Probabilistic Valency Pattern Theory,PVP)的形式模型。

  • 配价是词的根本属性。广义的配价是指词具有的一种和其他词结合的能力,这种能力是一种潜在的能力,它在语句中的实现受句法、语义和语用等因素的限制;狭义的配价指动词等词类要求补足语的能力。
  • 一个词的结合能力分为向心(输入)和离心(输出)两类。分别表示受别的词的支配能力(填补空位)和支配其他词(开辟空位)的能力。
  • 在配价词表的词项里,除了对该词的价进行量的描述,还应该进行质的研究。具体来说,需要研究价的数量、种类、性质、实现的条件等。
    • 数量:综合考虑传统配价必需的名词性补足语和其他能够完善该词的成分
    • 种类和性质:需要考虑语义格关系和语义特征
    • 实现:句法、语义、语用的模式等都属考虑范围
  • 配价词表模式中,既可以只含有句法信息,也可以含有语义信息,甚至语用和场景信息,这些信息决定了词与词组合时的约束级别。几个层面的信息可以单用或联合起来用,是一种多层级的词类组合信息描写格式。
  • 一个词类能(被)支配的依存关系是不均衡的,可以通过语料库获得更精确的定量描述。这样就很自然地引入了概率。一个词或词类的支配与被支配能力都不是呈均匀分布的,但被支配关系具有排他性:一个词不能同时有两个或两个以上的支配者。
  • 价的实现过程由于生成和识别不同而略有不同
    • 生成:智能体根据预先的计划在词库中选取可表示生成核心内容的词(一般是动词)构成整个句子的基本框架,随后据此有针对性地从词库中选取其他词,选取的指标是词的结合能力。生成语句时,要将生成的二维或三维结构转为线性一维序列,需要一些约束条件完成,这些限制可以是词法、句法、语义和语用的。
    • 识别:两种方法
      • 待输入的全部词语都进入工作区后,将它们具有的各种信息依据词库中对应的项一一赋予,然后开始组合,如果这些词语可以组合成一个有机整体则识别成功。
      • 从收到第一个输入的词开始就从词库中提取信息,边读入边分析。

小结

本章的几个形式模型都是基于依存和配价的,也是目前句法分析的主要框架。

  • Tesnière 的依存语法:
    • 依存语法又称 “从属关系语法”,由法国语言学家 L. Tesnière 提出,他的著作让 “配价” 这个术语广为人知,被称为 “配价理论之父”。
    • 依存语法最基本的概念是 “关联” 和 “转位”。
    • 关联:
      • 两个单独的形式通过句法联系起来表达,这种联系就叫 “关联”,类似化合物与组成的元素。
      • 关联要服从于层次原则,即要建立起句子中词与词之间的依存关系,这种关系用 “图式” 表示。
      • 在表示句子结构顺序的图式中,直接处于动词结点之下的是名词词组和副词词组,前者形成 “行动元”,后者形成 “状态元”。
      • 行动元的数目决定了动词的配价的数目。
    • 转位:
      • Tesnière 提出了四个基本词类:动词(I)、名词(O)、形容词(A)、副词(E),第一级是动词,第二级是名词和副词,第三级是形容词和副词,第四级是副词。
      • 转位就是词类的转换,分为一度转位和二度转位。在一度转位和二度转位内部还有简单转位和复杂转位。
      • 转位有六种类型:O>A, O>E, A>O, A>E, E>O, E>A,转位者或者是介词,或者是后缀,或者是加标记,也可以为空,分别记为 PREP, SUFF, INDICE 和 ∅。
    • 应用:
      • 与短语结构语法相比,依存语法没有词组这个层次,每一个结点都与句子中的单词相对应,能直接处理句子中词与词之间的关系,而结点数目大大减少,便于直接标注词性。短语结构树在确定结点依存关系后,可以转为依存树。
      • 1960 年,美国语言学家 D. G. Hays 提出依存分析法,力图从形式上建立句中词与词之间的依存关系,提出了3 种规则。
      • 1970 年,美国语言学家 J.Robinson 提出了依存语法的 4 条公理。
      • 1987 年,K. Schubert 从语言信息处理角度出发,提出了用于语言信息处理的依存语法 12 条原则。
      • 作者提出依存树应该满足的 5 个条件。
      • 1984 年,英国语言学家 Richard Hudson 提出了 “词语法”,是一种建立在依存语法基础上的形式语法。
      • Stanford Parser 自动句法分析系统既可以进行短语结构分析,也可以进行依存分析。在依存分析时,使用谓词逻辑表达式表示支配词和从属词之间的依存关系:谓词(支配词,从属词)。
  • 配价语法:
    • 德国的配价语法分别称为:莱比锡学派和曼海姆学派。
    • 莱比锡学派的代表人物是 Gerhard Helbig,该学派主要贡献在配价理论方面:
      • Helbig 提出了 “补足语” 和 “说明语” 的概念,大致相当于 Tesnière 的行动元和状态元。
      • Helbig 还认为应该区分必有补足语和可有补足语。
      • Zifonun 等引入了一种判定补足语、说明语和可有补足语的方法。
    • 曼海姆学派的核心人物是德语研究所的 Ulrich Engel,主要贡献在于研究并实践了是否可以用依存的原则来完整地描写一种语言中的主要现象。
    • 配价可以从逻辑、句法和语义三个层次认识:
      • 配价逻辑:由词义的逻辑关系决定的配价。
      • 句法配价:逻辑配价在具体语言中的表现形式。
      • 语义配价:充当补足语的词语在语义上是否与动词相容。
    • 应用:
      • 捷克布拉格大学的计算语言学家 Petr Sgall,Jarmila Panevová 和 Eva Hajicová 提出了功能生成描述(Functional Generative Description,FGD),是一种多层级的自然语言处理的形式模型,配价占核心地位。
      • 德国计算语言学家 Hellwig 把配价和合一结合起来,提出了 “依存合一语法”(Dependency Unification Grammar,DUG),配价是其核心概念之一。
      • 2007 年,作者与刘海涛提出了 “概率配价模型理论”(Probabilistic Valency Pattern Theory,PVP)的形式模型。
        • 配价是词的根本属性。
        • 一个词的结合能力分为向心(输入)和离心(输出)两类。分别表示受别的词的支配能力(填补空位)和支配其他词(开辟空位)的能力。
        • 配价词表模式中,既可以只含有句法信息,也可以含有语义信息,甚至语用和场景信息,这些信息决定了词与词组合时的约束级别。
        • 一个词类能(被)支配的依存关系是不均衡的,可以通过语料库获得更精确的定量描述。这样就很自然地引入了概率。

这一章看完后能对 NLP 处理中的依存分析有比较详细地认识,就是不知道如今用的方法是不是来自于 PVP。难度和篇幅都不大。