自然语言计算机形式分析的理论与方法笔记(Ch01)

第一章:自然语言处理的学科定位

从自然语言处理的过程、范围和历史三个角度考察学科定位问题。

  • 过程:纵的角度
  • 范围:横的角度
  • 历史:发展的角度

从自然语言处理的过程考察

  • 计算机对自然语言研究和处理的四个过程:
    • 语言 “形式化”
    • 形式 “算法化”
    • 算法 “程序化”
    • 程序 “实用化”
  • 建立自然语言处理模型需要不同平面的知识:
    • 声学和韵律学的知识:描述语言的节奏、语调和声调的规律,说明语音怎样形成音位
    • 音位学的知识:描述音位的结合规律,说明音位怎样形成语素
    • 形态学的知识:描述语素的结合规律,说明语素怎样形成单词
    • 词汇学的知识:描述词汇系统的规律,说明单词本身固有的语义特性和语法特性
    • 句法学的知识:描述单词(或词组)之间的结构规则,说明单词(或词组)怎样形成句子
    • 语义学的知识:描述句子中各个成分之间的语义关系,这样的语义关系是与情景无关的,说明怎样从构成的句子的各个成分中推导出整个句子的语义
    • 话语分析的知识:描述句子与句子之间的结合规律,说明怎样由句子形成话语或对话
    • 语用学的知识:描述与情境有关的情景语义,说明怎样推导出句子具有的与周围话语有关的各种含义
    • 外界世界的常识性知识:描述关于语言使用者和语言使用环境的一般性常识,例如语言使用者的信念和目的,说明怎样推导出这样的信念和目的的内在内容

从自然语言处理的范围考察

  • 归纳为四个大方向:
    • 语言学方向
    • 数据处理方向
    • 人工智能和认知科学方向
    • 语言工程方向
  • 具体细分为 13 个方面:
    • 口语输入
    • 书面语输入
    • 语言分析和理解
    • 语言生成
    • 口语输出技术
    • 话语分析与对话
    • 文献处理
    • 多语
    • 多模态
    • 信息的传输与存储
    • 自然语言处理中的数学方法
    • 语言资源
    • 自然语言处理系统评测

从自然语言处理的历史考察

萌芽期

  • 20 世纪 40 年代到 50 年代末
    • A.M.Turing 算法计算模型
    • N.Chomsky 形式语言理论
    • C.E.Shannon 概率和信息论模型
    • 机器翻译
  • 20 世纪 50 年代末到 60 年代中期
    • 自然语言处理分成两个阵营:符号派和随机派
    • 符号派
      • Chomsky 等的形式语言理论和生成句法研究
        • 早期的自顶向下和自底向上算法研究
        • 后期的动态规划研究
        • Zelig Harris 的 “转换与话语分析课题”
      • 人工智能的研究
        • 着重研究推理和逻辑问题
        • Newell 和 Simon 关于 “逻辑理论家” 和 “通用问题解答器”
        • 把模式匹配和关键词搜索与简单试探的方法结合起来进行推理和自动问答
    • 随机派
      • 贝叶斯方法被用于解决最优字符识别问题
      • 基于转换语法的第一个人类语言计算机处理的可严格测定的心理模型
      • 第一个联机语料库——布朗语料库
    • 机器翻译
      • Yngve 主张机器翻译分三个阶段:(1)用代码化的结构标志来表示原语文句的结构;(2)把原语的结构标志转换为译语的结构标志;构成译语的输出问句。把句法分析放在第一位,促进了句法的形式化研究。
      • 语法与算法分开,即语言分析和程序设计分开

发展期

20 世纪 60 年代中期到 80 年代末期。

  • B.Vauquois 的 “机器翻译金字塔” 六个步骤
    • 原语词法分析

    • 原语句法分析

    • 原语译语词汇转换

    • 原语译语机构转换

    • 译语句法生成

    • 译语词法生成

    • 翻译软件 ARIANE-78

  • 斯坦福大学 Y.A.Wilks 提出了 “优选语义学”,强调无论在原语还是译语生成阶段都要把语义问题放在第一位。
  • 1976 年,蒙特利尔大学与联邦政府翻译局:TAUM-METEO 系统,里程碑
  • 1978 年,欧共体(欧盟)提出多语种机器翻译计划 EUROTRA,至今未取得预期效果
  • 1982-1986 年,日本 Mu 系统;随后原定于 1987-1992 年完成实际延迟到 1995 年完成的日本多语言机器翻译 ODA 计划,实验效果不尽如人意
  • 1987 年,TELECOM’87 会议,自动翻译电话通话试验
  • 中科院 NLPR 与韩国 ETRI 合作进行了汉韩口语翻译实验
  • 1991 年,成立国际语音翻译先进研究联盟(C-STAR)
  • 2000 年,中科院 NLPR 成为该组织的核心成员之一,汉语成为 C-STAR 多语言语音翻译系统的主要语言之一

统计学方法在语音识别算法研制中取得成功

  • 隐马尔科夫模型、噪声信道与解码模型
    • Jelinek、Bahl、Mercer 和 IBM 华生研究中心
    • 卡内基梅隆大学的 Baker
    • AT&T 的贝尔实验室
    • 科大讯飞

逻辑方法在 NLP 中取得成绩

  • 1970 年 A.Colmerauer 及同事研制的 Q 系统和变形文法
  • 1980 年 Pereira 和 Warren 剔除的定子句文法
  • 1979 年 M.Kay 对功能语法的研究,1982 年 Bresnan 和 Kaplan 在词汇功能语法方面的工作,都是特征结构合一方面的研究成果

自然语言理解也取得成绩

  • 1972 年 Terry 研制的 SHRDLU 系统,能够模拟一个嵌入玩具积木世界的机器人的行为;该系统首次尝试建立基于 Halliday 系统语法的英语语法;该系统说明,句法剖析也应该重视语义和话语的形式模型的研究。

  • 1977 年 R.Schank 与其在耶鲁大学的同事和学生建立了一些语言理解程序;他们使用基于网络的语义学理论,并在表达方式中引进 C.Fillmore 在 1968 年提出的关于格角色的概念。

  • 自然语言理解中的逻辑方法:1967 年 Woods 研制的 LUNAR 问答系统使用谓词逻辑进行语义解释

  • 话语分析四个关键领域:话语子结构的研究,话语焦点的研究,自动参照消解研究和基于逻辑的言语行为研究

    • 1977 年,Crosz 和同事研究了话语子结构和话语焦点
    • 1972 年,Hobbs 开始研究自动参照消解
    • 1980 年,Perrault 和 Allen 建立了 “信念-愿望-意图”(BDI)框架

1983-1993 十年中:NLP 又回到了 20 世纪 50 年代末期 60 年代初期几乎被否定的有限状态模型和经验主义方法上

  • 重新评价有限状态模型

    • Kaplan 和 Key 在有限状态音系学和形态学方面的工作
    • Church 在句法的有限状态模型方面的工作
  • 重新回到经验主义

    • 语音和语言处理的概率模型
    • 传播到连接主义方法的研究中

繁荣期

1989 年,机器翻译进入新纪元:基于规则的技术中引入了语料库方法。

1994-1999 年以及 21 世纪初期,自然语言处理的研究出现了空前的繁荣:

  • 概率和数据驱动的方法几乎成了 NLP 标准方法
  • 由于计算机速度和存储量增加,在语音和语言处理的一些子领域有可能进行商品开发
  • 网络技术的发展对 NLP 产生了巨大推力

当前自然语言处理发展的几个特点

  • 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,随着 Web 的日益普及,大规模真实文本的处理成为 NLP 的主要战略目标。
    • 基于规则的理性主义方法,哲学基础是逻辑实证主义:智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此思维就是符号运算。语言学家 J.A.Fodor 认为心理操作和图灵机的操作十分类似。
    • 反驳与弱点
  • NLP 中越来越多地使用机器学习的方法来获取语言知识。
    • 有监督
    • 无监督
    • 半监督
  • 统计数学方法越来越受到重视。
    • 估计语言成分出现的可能性,而不是单纯地判断这样的语言成分是否符合语言学规则(与传统的规则型语言模型对比)
    • 语言统计模型已经相当成熟,如:隐马尔科夫模型、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型、条件随机场等
  • NLP 中越来越重视词汇的作用,出现了强烈的 “词汇主义” 倾向。
    • Chomsky 提出的 “最简方案” 将所有重要的语法原则直接运用于表层,把具体的规则减少到最低限度,不同语言之间的差异由词汇来处理。
    • 词汇知识库的构建成为普遍关注的问题。

**小结:**主要介绍了自然语言处理的历史、研究对象、特点等,可以让我们对自然语言处理的横向、纵向有更加深刻的认识。书籍介绍的非常详细,作者熟知整个脉络,严谨又开放,熟悉各种技术且均能做出中立和中肯的判断及评价,可谓大师。