自然语言计算机形式分析的理论与方法笔记(Ch13)

第十三章:N 元语法和数据平滑

N 元语法

N 元语法模型利用前面 N-1 个单词来预测下一个词。一些特殊情况:标点、大小写、屈折变化等。

一个单词的概率只依赖于它前面一个单词的这种假设叫作 Markov 假设,这样的模型叫 Bi-gram,即二元语法模型,也叫一阶 Markov 模型。

N 元语法模型可以使用训练语料库 “归一化” 得到。

p(wnwn1)=C(wn1wn)wC(wn1w)p(w_n|w_{n-1}) = \frac {C(w_{n-1}w_n)}{\sum_w C(w_{n-1}w)}

以 $$w_{n-1}$$ 开头的二元语法计数必定等于 $$w_{n-1}$$ 这个单词的计数,于是:

p(wnwn1)=C(wn1wn)C(wn1)p(w_n|w_{n-1}) = \frac {C(w_{n-1}w_n)}{C(w_{n-1})}

一般化 N 元语法的参数估计:

p(wnwnN+1n1)=C(wnN+1n1wn)C(wnN+1n1)p(w_n|w_{n-N+1}^{n-1}) = \frac {C(w_{n-N+1}^{n-1}w_n)}{C(w_{n-N+1}^{n-1})}

两个重要事实:

  • N 增加时,精确度相应增加,同时生成句子的局限性增加(可选的下个词减少)
  • 严重依赖于语料库

More

自然语言计算机形式分析的理论与方法笔记(Ch12)

第十二章:Bayes 公式与动态规划算法

拼写错误的检查与更正

1992 年,Kukich 把这个领域分解为三大问题:

  • 非词错误检查
  • 孤立词错误更正
  • 依赖于上下文的错误检查和更正
    • 打字操作时的错误:插入、脱落、改变位置等
    • 书写错误地拼写同音词和准同音词

1964 年 Damerau 发现 80% 的错误由 “单个错误” 引起的:

  • 插入:the→ther
  • 脱落:the→th
  • 替代:the→thw
  • 换位:the→hte

Kukich 把打字错误分为两类:

  • 打字操作错误:一般与键盘有关
  • 认知错误:不知道如何拼写

OCR 错误一般分为五类:替代、多重替代、空白脱落、空白插入和识别失败。

More

自然语言计算机形式分析的理论与方法笔记(Ch11)

第十一章:概率语法

基于规则的句法剖析主要使用 Chomsky 的上下文无关语法。之前的自顶向下、自底向上、左角、CYK、Earley、线图分析法等都对歧义无能为力,于是有了新的改进:一方面是给上下文无关语法的规则加上概率,另一方面是除了加上概率外,还考虑规则的中心词对于规则概率的影响。这些称为 “概率语法”。

More

自然语言计算机形式分析的理论与方法笔记(Ch07)

第七章:基于词汇主义的形式模型

Gross 的词汇语法

1975 年,Gross 首次提出 “词汇语法” 的理论,1979 年进一步完善了理论,是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。

  • 坚持索绪尔的纯语言学立场,主张 “语言学唯一的、真正的对象是就语言并为语言而研究的语言”,把语言定义为一种特殊的、带有自然现象许多特点的社会现象,主张从语言的内在结构去研究,即把语言作为音义结合的符号系统来研究,把一切非语言的因素严格限制在一个能把握得了的范围之内。

  • 坚持结构主义方法论原则。即语言是一个结构系统,应当注重各个成分之间关系的探索,重视共时的研究,强调形式的分析和描写。

  • 坚持实证主义的变换方法。

  • 中心思想是词汇及语法,对二者的互动关系探求应当系统地进行。

  • 在理论和实践的关系上,坚持方法的选择必须以应用价值为先导,反对以假设为前提、忽视应用的做法。

  • 主张句法独立,坚持在句法描写中摈弃语义上的先验模式,使语义的描写处于最低量态度,做到 “语义低量”。Gross 坚信,句法可以形式化到相当的应用程度,而语义不可能独立于句法而达到形式化,他不排斥语义,但是主张语义描写的最低量。

    如果从形式化角度来说,语义的确不如句法;但句法的出现和发展也是为了表达语义的。

    我现在越来越怀疑语言学的这一系列研究方法,肯定有其价值,但到底是不是正确的方向,或者说究竟有没有正确的方向?

    从某种意义上来说,词汇语法有一定道理,尤其是其基于词汇主义的思想,词很有可能比现有研究所表现出来的更加重要。

  • 相信一切语言理论和方法都受到语言事实的检验。

More

自然语言计算机形式分析的理论与方法笔记(Ch06)

第六章:基于格语法的形式模型

Fillmore 的格语法

美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段:

  • 20 世纪 60 年代末到 70 年代初:只用格分析平面做工具,把句子的底层语义表达跟句子描述的情景的特点联系起来,不考虑深层语法关系平面。
  • 20 世纪 70 年代中期以后:增加了深层语法关系平面来解释语义和句法现象。

More

自然语言计算机形式分析的理论与方法笔记(Ch05)

第五章:基于依存和配价的形式模型

配价概念的起源

  • 12 世纪,语言学家 Petrus Helias 提出 “动词中心说”,指出了动词对于句子成分的要求,隐含了 “配价” 的概念。
  • 1781 年,德国语言学家 Johann Werner Meiner 将谓语(动词)分为一价动词、二价动词和三价动词,很接近 “配价” 了。
  • 1934 年,奥地利语言学家 Karl Bühler 提到 “空位”(某一词类的词在自己周围辟开一个或一个空位,这些空位必须由其他类型的词来填补)概念,揭示了 “配价” 的本质,也被认为是配价理论研究的先驱。
  • 1948 年,苏联语言学家 Kacnel’son 首次提出 “配价” 这个术语:词在句中以一定方式出现以及与其他词组合的这种特性称为 “句法配价”。
  • 40 年后,Kacnel’son 对配价的理解有了变化:配价可以被定义为一种包含在词的词汇意义中的句法潜力,这意味着这种可与其他词产生关系的能力是由实词决定的。用配价来揭示那些隐藏在词汇意义里面,需要用一定类型的词在句子中完善词义的东西。所以不是所有实词都有配价,只有那些本身让人感到表达不完整并且需要使其完整的词,才具有 “配价”。他特别强调配价的 “潜在性”。
  • 1949 年,荷兰语言学家 A. W. de Groot 系统描述了建立在配价概念基础上的句法体系。他认为词类具有不同的句法配价,配价是被其他词所限定或限定其他词的可能性或不可能性,所有词类都有配价。这是一种 “泛配价” 的观点。

More