自然语言计算机形式分析的理论与方法笔记(Ch13)

第十三章：N 元语法和数据平滑

N 元语法

N 元语法模型利用前面 N-1 个单词来预测下一个词。一些特殊情况：标点、大小写、屈折变化等。

一个单词的概率只依赖于它前面一个单词的这种假设叫作 Markov 假设，这样的模型叫 Bi-gram，即二元语法模型，也叫一阶 Markov 模型。

N 元语法模型可以使用训练语料库 “归一化” 得到。

p(w_n|w_{n-1}) = \frac {C(w_{n-1}w_n)}{\sum_w C(w_{n-1}w)}

以 $$w_{n-1}$$ 开头的二元语法计数必定等于 $$w_{n-1}$$ 这个单词的计数，于是：

p(w_n|w_{n-1}) = \frac {C(w_{n-1}w_n)}{C(w_{n-1})}

一般化 N 元语法的参数估计：

p(w_n|w_{n-N+1}^{n-1}) = \frac {C(w_{n-N+1}^{n-1}w_n)}{C(w_{n-N+1}^{n-1})}

两个重要事实：

N 增加时，精确度相应增加，同时生成句子的局限性增加（可选的下个词减少）
严重依赖于语料库

第十二章：Bayes 公式与动态规划算法

拼写错误的检查与更正

1992 年，Kukich 把这个领域分解为三大问题：

非词错误检查
孤立词错误更正
依赖于上下文的错误检查和更正
- 打字操作时的错误：插入、脱落、改变位置等
- 书写错误地拼写同音词和准同音词

1964 年 Damerau 发现 80% 的错误由 “单个错误” 引起的：

插入：the→ther
脱落：the→th
替代：the→thw
换位：the→hte

Kukich 把打字错误分为两类：

打字操作错误：一般与键盘有关
认知错误：不知道如何拼写

OCR 错误一般分为五类：替代、多重替代、空白脱落、空白插入和识别失败。

第十一章：概率语法

基于规则的句法剖析主要使用 Chomsky 的上下文无关语法。之前的自顶向下、自底向上、左角、CYK、Earley、线图分析法等都对歧义无能为力，于是有了新的改进：一方面是给上下文无关语法的规则加上概率，另一方面是除了加上概率外，还考虑规则的中心词对于规则概率的影响。这些称为 “概率语法”。

第十章：语用自动处理的形式模型

语用学是对语言与使用环境之间关系的研究。使用环境包括像人和物这样的本体，也包括话语的上下文。研究主要涉及修辞结构理论、文本连贯、言语行为理论和会话智能代理等方面。

第九章：系统功能语法

系统功能语法的基本概念

英国语言学家 M. A. K. Halliday 提出，他继承并发扬了他的老师 Firth 为代表的伦敦语言学派的功能主义理论。

第八章：语义自动处理的形式模型

关于语义与语法分析的关系，有两种方式：先句法后语义和句法语义一体化。

第七章：基于词汇主义的形式模型

Gross 的词汇语法

1975 年，Gross 首次提出 “词汇语法” 的理论，1979 年进一步完善了理论，是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。

坚持索绪尔的纯语言学立场，主张 “语言学唯一的、真正的对象是就语言并为语言而研究的语言”，把语言定义为一种特殊的、带有自然现象许多特点的社会现象，主张从语言的内在结构去研究，即把语言作为音义结合的符号系统来研究，把一切非语言的因素严格限制在一个能把握得了的范围之内。
坚持结构主义方法论原则。即语言是一个结构系统，应当注重各个成分之间关系的探索，重视共时的研究，强调形式的分析和描写。
坚持实证主义的变换方法。
中心思想是词汇及语法，对二者的互动关系探求应当系统地进行。
在理论和实践的关系上，坚持方法的选择必须以应用价值为先导，反对以假设为前提、忽视应用的做法。
主张句法独立，坚持在句法描写中摈弃语义上的先验模式，使语义的描写处于最低量态度，做到 “语义低量”。Gross 坚信，句法可以形式化到相当的应用程度，而语义不可能独立于句法而达到形式化，他不排斥语义，但是主张语义描写的最低量。

如果从形式化角度来说，语义的确不如句法；但句法的出现和发展也是为了表达语义的。

我现在越来越怀疑语言学的这一系列研究方法，肯定有其价值，但到底是不是正确的方向，或者说究竟有没有正确的方向？

从某种意义上来说，词汇语法有一定道理，尤其是其基于词汇主义的思想，词很有可能比现有研究所表现出来的更加重要。
相信一切语言理论和方法都受到语言事实的检验。

第六章：基于格语法的形式模型

Fillmore 的格语法

美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段：

20 世纪 60 年代末到 70 年代初：只用格分析平面做工具，把句子的底层语义表达跟句子描述的情景的特点联系起来，不考虑深层语法关系平面。
20 世纪 70 年代中期以后：增加了深层语法关系平面来解释语义和句法现象。

第五章：基于依存和配价的形式模型

配价概念的起源

12 世纪，语言学家 Petrus Helias 提出 “动词中心说”，指出了动词对于句子成分的要求，隐含了 “配价” 的概念。
1781 年，德国语言学家 Johann Werner Meiner 将谓语（动词）分为一价动词、二价动词和三价动词，很接近 “配价” 了。
1934 年，奥地利语言学家 Karl Bühler 提到 “空位”（某一词类的词在自己周围辟开一个或一个空位，这些空位必须由其他类型的词来填补）概念，揭示了 “配价” 的本质，也被认为是配价理论研究的先驱。
1948 年，苏联语言学家 Kacnel’son 首次提出 “配价” 这个术语：词在句中以一定方式出现以及与其他词组合的这种特性称为 “句法配价”。
40 年后，Kacnel’son 对配价的理解有了变化：配价可以被定义为一种包含在词的词汇意义中的句法潜力，这意味着这种可与其他词产生关系的能力是由实词决定的。用配价来揭示那些隐藏在词汇意义里面，需要用一定类型的词在句子中完善词义的东西。所以不是所有实词都有配价，只有那些本身让人感到表达不完整并且需要使其完整的词，才具有 “配价”。他特别强调配价的 “潜在性”。
1949 年，荷兰语言学家 A. W. de Groot 系统描述了建立在配价概念基础上的句法体系。他认为词类具有不同的句法配价，配价是被其他词所限定或限定其他词的可能性或不可能性，所有词类都有配价。这是一种 “泛配价” 的观点。

第四章：基于合一运算的形式模型

短语结构语法有局限性，其中最大的问题就是生成能力过于强大，区分歧义结构能力很差，常常会产生大量的歧义句子或不合格句子。于是就出现了本章将要讨论的这些能够避免这种局限性的新的语法理论。

Yam

Feeling, Coding, Thinking

自然语言计算机形式分析的理论与方法笔记(Ch13)

第十三章：N 元语法和数据平滑

N 元语法

自然语言计算机形式分析的理论与方法笔记(Ch12)

第十二章：Bayes 公式与动态规划算法

拼写错误的检查与更正

自然语言计算机形式分析的理论与方法笔记(Ch11)

第十一章：概率语法

自然语言计算机形式分析的理论与方法笔记(Ch10)

第十章：语用自动处理的形式模型

自然语言计算机形式分析的理论与方法笔记(Ch09)

第九章：系统功能语法

系统功能语法的基本概念

自然语言计算机形式分析的理论与方法笔记(Ch08)

第八章：语义自动处理的形式模型

自然语言计算机形式分析的理论与方法笔记(Ch07)