自然语言计算机形式分析的理论与方法笔记(Ch18)

第十八章:自然语言处理中的理性主义与经验主义

  • 理性主义:以生成语言学为基础的方法
  • 经验主义:以大规模语料库的分析为基础的方法

哲学中的理性主义和经验主义

感性与理性的矛盾也是经验主义和理性主义的矛盾,人人类哲学思想发展的内在动力之一。

理性主义:

  • 笛卡尔改造了传统的演绎法,制定了理性的演绎法。他认为任何真理的认识都必须首先在人的认识中找到一个最确定、最可靠的支点,才能保证推出的知识也是确定可靠的。
  • 斯宾诺莎把几何学方法应用于伦理学研究,使用几何学的公理、定义、命题、证明等步骤进行演绎推理。
  • 莱布尼茨把逻辑学高度抽象化、形式化和精确化,使逻辑学成为一种用符号进行演算的工具。

经验主义:

  • 培根提出 “三表法”,制定了经验归纳法,建立了归纳逻辑体系。他批评理性派哲学家:“只是从经验中抓到一些既没有适当审定也没有仔细考察和衡量的普遍例证,而把其余的事情都交给了玄想和个人的机智活动”。
  • 霍布斯认为归纳法不仅包含分析,也包含综合,分析得出的普遍原因只有通过综合才能成为研究对象的特殊原因。
  • 洛克把理性演绎隶属于经验归纳之下,对演绎法做了经验主义的理解。他认为一切知识和推论的直接对象是一些个别、特殊的事物,我们获取知识只能从个别、特殊到一般。只是后来人心采取了相反的途径,要尽力把它的知识形成概括的命题。
  • 休谟运用实验推理的方法剖析人性,试图建立一个精神哲学体系。他指出:“一切关于事实的推理,似乎都建立在因果关系上面,只要依照这种关系推理便能超出我们的记忆和感觉的见证以外”,他认为,“原因和结果的发现,是不能通过理性,只能通过经验的”,经验是我们关于因果关系的一切推论和结论的基础。
  • 牛顿认为自然哲学只能从经验事实出发去解释世界事物,把经验归纳法作为科学研究的一般方法论原理。

自然语言处理中理性主义和经验主义的消长

  • 早期 NLP 带有鲜明的经验主义色彩
    • 1913 年 Markov 提出 Markov 随机过程理论,建立了 Markov 模型
    • 1948 年 Shannon 把 Markov 过程的概率模型应用于描述语言的自动机,还把 “熵” 作为测量语言信息量的一种方法
  • Noam Chomsky 带来的重大转向
    • 1956 年 Chomsky 吸取了有限状态 Markov 过程的思想,首次把有限状态自动机作为一种工具来刻画语言的语法,并把有限状态语言定义为有限状态语法生成的语言,建立了自然语言的有限状态模型。
    • 1969 年他主张采用公理化、形式化的方法,严格地按照一定的规则描述自然语言的特征,提出了 “生成语法”,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立 “普遍语法”。
    • 他认为经验主义的统计方法只能解释语言的表面现象,不能解释语言的内在规则或生成机制。
    • 他认为生成语法的研究应遵循自然科学研究中的 Galileo-Newton 风格:人们应当努力构建最好的理论,不要为干扰理论解释力的现象而分散精力,同时应当认识到,世界与常识直觉是不相一致的。
      • Galileo 风格的核心内容是:人们正在构建的理论体系是确实的真理,由于存在过多的因素和各种各样的事物,现象序列往往是对于真理的某种歪曲。所以科学研究中要去寻求那些看起来确实能够给予人们深刻见解的原则。
      • Newton 风格的核心内容是:目前的科学水平下,世界本身是不可理解的,科学研究所要做的最好的事情就是努力构建可以被理解的理论。
    • 生成语法的目的是构建关于人类语言的理论,而不是描写语言的各种事实和现象。即探索和发现语言事实和现象背后的本质和原则。
    • NLP 中的理性主义方法是一种基于规则的方法,或符号主义的方法。基本根据是 “物理符号系统假设”,该假设主张:人类的智能行为可以使用武物理符号系统来模拟,物理符号系统包含一些物理符号的模式,这些模式可以用来构建各种符号表达式以表示符号的结构。
    • 基于规则的理性主义方法适合处理深层次的语言现象和长距离依存关系,多使用演绎法。
  • 20 世纪 50 年代末到 60 年代中期,经验主义兴盛起来
    • 学者普遍认为:语言学的研究必须以语言事实作为根据,才有可能得出比较可靠的结论。
    • 基于统计的语言概率模型表现出色,取得很大成功。
    • 适合于处理浅层次的语言现象和近距离的依存关系,多使用归纳法。
    • 50 年代后期,Bayes 方法被应用于解决最优字符识别的问题。
    • 60 年代,统计方法在语音识别算法研制中取得成功,特别是 HMM 模型和噪声信道模型。
    • 各种语料库建立并在商业上获得成功。
  • 20 世纪 60 年代至 80 年代初期,Chomsky 仍然是主流
  • 20 世纪 90 年代开始,随着大规模语料库的建立,NLP 进入一个新的阶段,概率和数据驱动的方法几乎成为 NLP 的标准方法

理性主义方法和经验主义方法的利弊得失

基于规则的理性主义方法的优点:

  • 规则是语言学规则,描述和生成能力很强
  • 可以有效处理长距离依存关系
  • 通常明白易懂、表达清晰
  • 本质上没有方向性,既可用于分析也可用于生成
  • 可以在语言知识各个平面上使用,可以在不同维度上应用
  • 与计算机科学的一些高效算法兼容

基于规则的理性主义方法的缺点:

  • 鲁棒性差
  • 往往需要多领域专家配合研究,不能通过机器学习自动获得,也不能自动泛化
  • 针对性比较强,难以进一步升级
  • 实际应用效果不如基于统计的经验主义方法

基于统计的经验主义方法的优点:

  • 从数据中获取语言的统计知识,效果良好
  • 数据越多效果越好
  • 容易与基于规则的方法结合起来处理语言的约束问题
  • 适合模拟有细微差别的、不精确的、模糊的概念

基于统计的经验主义方法的缺点:

  • 运行时间与统计模式中包含的符号类别多少成比例线性增长
  • 语料库的质量决定了效果,但获取数据费时费力,而且很难避免出错
  • 容易出现数据稀疏问题

对 NLP 现状的一些呼吁:

  • Lori Levin:在计算语言学研究中,语言学在整体上是缺位的,已经失去了它应该有的位置。
  • Shuly Wintner:计算语言学领域会议的主要文章绝大多数都是工程型的,讨论的都是实际问题的工程解决方案,几乎不再有人讨论基础性的语言学问题,NLP 工程师怎么能够不研究语言学呢?
  • Kenneth Church:基于统计方法的 “钟摆” 已经摆的太远了,需要依靠深层的语言学知识去摘取高枝上的果实。他建议深入研究语言学中的规律和各种规则,将其融合到统计方法中,将两种方法有效地结合起来。

探索理性主义方法和经验主义方法结合的途径

培根:历来处理科学的人,不是实验家,就是教条者。实验家像蚂蚁,只会采集和使用;推论家像蜘蛛,只凭自己的材料来织成丝网。而蜜蜂采取中道,从花朵中采集材料,用自己的能力加以变化和消化。哲学的真正任务正是这样,它既非完全或主要依靠心的能力,也非只把从自然历史和机械实验收来的材料原封不动、囫囵吞枣地累置于记忆当中,而是把它们变化过和消化过放置在理解力之中。

本章主要从哲学层面探讨了自然语言处理,其实,工业界关注工程完全可以理解,学术界因为容易出成果也可以理解,我想任何人都不会否认 “无论使用什么方法,效果好是最重要的”。不过哲学中的一些观点还是很有趣的,也不光适用于自然语言处理。