第十七章:自然语言处理系统评测
测评的一般原则和方法
两种不同的测评方法:
- 黑箱评测(外在评测):不关心 NLP 系统内部机制和组成结构,主要根据输入输出结果判断,有助于了解外在的总体性能。
- 白箱评测(内在评测):对 NLP 内部机制分别分析,测评各组成部分性能,有助于了解内部组成部分的性能。
主要采用黑箱评测,“宽进严出”。
两种不同的测评方法:
主要采用黑箱评测,“宽进严出”。
作家们确实有各自的风格,而且是可以进行预测的。事实证明,所有书籍的作者都在写作中不断重复自己的遣词造句和行文方式。
Markov 链也就是加权自动机。HMM 增加了要求:
HMM 要求的参数如下:
需要求解的是 A B π,因此一般使用 λ = {A, B, π} 来定义一个 HMM 模型,模型对外表现出来的是观察序列,状态序列不能直接观察到,被称为 “隐变量”。
三个基本问题:
N 元语法模型利用前面 N-1 个单词来预测下一个词。一些特殊情况:标点、大小写、屈折变化等。
一个单词的概率只依赖于它前面一个单词的这种假设叫作 Markov 假设,这样的模型叫 Bi-gram,即二元语法模型,也叫一阶 Markov 模型。
N 元语法模型可以使用训练语料库 “归一化” 得到。
以 $$w_{n-1}$$ 开头的二元语法计数必定等于 $$w_{n-1}$$ 这个单词的计数,于是:
一般化 N 元语法的参数估计:
两个重要事实:
1992 年,Kukich 把这个领域分解为三大问题:
1964 年 Damerau 发现 80% 的错误由 “单个错误” 引起的:
Kukich 把打字错误分为两类:
OCR 错误一般分为五类:替代、多重替代、空白脱落、空白插入和识别失败。
基于规则的句法剖析主要使用 Chomsky 的上下文无关语法。之前的自顶向下、自底向上、左角、CYK、Earley、线图分析法等都对歧义无能为力,于是有了新的改进:一方面是给上下文无关语法的规则加上概率,另一方面是除了加上概率外,还考虑规则的中心词对于规则概率的影响。这些称为 “概率语法”。
语用学是对语言与使用环境之间关系的研究。使用环境包括像人和物这样的本体,也包括话语的上下文。研究主要涉及修辞结构理论、文本连贯、言语行为理论和会话智能代理等方面。