自然语言计算机形式分析的理论与方法笔记(Ch07)

第七章:基于词汇主义的形式模型

Gross 的词汇语法

1975 年,Gross 首次提出 “词汇语法” 的理论,1979 年进一步完善了理论,是一种基于词汇主义的形式化语言理论。词汇语法的理论基础是结构主义语言学。

  • 坚持索绪尔的纯语言学立场,主张 “语言学唯一的、真正的对象是就语言并为语言而研究的语言”,把语言定义为一种特殊的、带有自然现象许多特点的社会现象,主张从语言的内在结构去研究,即把语言作为音义结合的符号系统来研究,把一切非语言的因素严格限制在一个能把握得了的范围之内。

  • 坚持结构主义方法论原则。即语言是一个结构系统,应当注重各个成分之间关系的探索,重视共时的研究,强调形式的分析和描写。

  • 坚持实证主义的变换方法。

  • 中心思想是词汇及语法,对二者的互动关系探求应当系统地进行。

  • 在理论和实践的关系上,坚持方法的选择必须以应用价值为先导,反对以假设为前提、忽视应用的做法。

  • 主张句法独立,坚持在句法描写中摈弃语义上的先验模式,使语义的描写处于最低量态度,做到 “语义低量”。Gross 坚信,句法可以形式化到相当的应用程度,而语义不可能独立于句法而达到形式化,他不排斥语义,但是主张语义描写的最低量。

    如果从形式化角度来说,语义的确不如句法;但句法的出现和发展也是为了表达语义的。

    我现在越来越怀疑语言学的这一系列研究方法,肯定有其价值,但到底是不是正确的方向,或者说究竟有没有正确的方向?

    从某种意义上来说,词汇语法有一定道理,尤其是其基于词汇主义的思想,词很有可能比现有研究所表现出来的更加重要。

  • 相信一切语言理论和方法都受到语言事实的检验。

More

自然语言计算机形式分析的理论与方法笔记(Ch06)

第六章:基于格语法的形式模型

Fillmore 的格语法

美国语言学家 C.Fillmore 提出的语法理论。发展的两个阶段:

  • 20 世纪 60 年代末到 70 年代初:只用格分析平面做工具,把句子的底层语义表达跟句子描述的情景的特点联系起来,不考虑深层语法关系平面。
  • 20 世纪 70 年代中期以后:增加了深层语法关系平面来解释语义和句法现象。

More

自然语言计算机形式分析的理论与方法笔记(Ch05)

第五章:基于依存和配价的形式模型

配价概念的起源

  • 12 世纪,语言学家 Petrus Helias 提出 “动词中心说”,指出了动词对于句子成分的要求,隐含了 “配价” 的概念。
  • 1781 年,德国语言学家 Johann Werner Meiner 将谓语(动词)分为一价动词、二价动词和三价动词,很接近 “配价” 了。
  • 1934 年,奥地利语言学家 Karl Bühler 提到 “空位”(某一词类的词在自己周围辟开一个或一个空位,这些空位必须由其他类型的词来填补)概念,揭示了 “配价” 的本质,也被认为是配价理论研究的先驱。
  • 1948 年,苏联语言学家 Kacnel’son 首次提出 “配价” 这个术语:词在句中以一定方式出现以及与其他词组合的这种特性称为 “句法配价”。
  • 40 年后,Kacnel’son 对配价的理解有了变化:配价可以被定义为一种包含在词的词汇意义中的句法潜力,这意味着这种可与其他词产生关系的能力是由实词决定的。用配价来揭示那些隐藏在词汇意义里面,需要用一定类型的词在句子中完善词义的东西。所以不是所有实词都有配价,只有那些本身让人感到表达不完整并且需要使其完整的词,才具有 “配价”。他特别强调配价的 “潜在性”。
  • 1949 年,荷兰语言学家 A. W. de Groot 系统描述了建立在配价概念基础上的句法体系。他认为词类具有不同的句法配价,配价是被其他词所限定或限定其他词的可能性或不可能性,所有词类都有配价。这是一种 “泛配价” 的观点。

More

数据结构与算法:思考排序

相比无序数据,人类更喜欢有序的,比如我们会整理房间,我们会努力组织语言以便让别人更容易理解,等等。提升效率当然是一个原因,比如字典(很难想象一本乱序的字典要如何使用),但还有个我个人觉得很重要的因素是:人是智能体。减熵是智能的一种表现,人类有一种几乎是本能去降低无序性和不确定性的趋向。因为计算机需要供人类使用,排序自然就是一个非常基本且重要的任务了。事实也是如此,我们平时在用代码完成特定任务时,排序也经常会出现在其中,而且往往是处理和分析的第一步。而对计算机本身来说其实并不在乎,就像 ”人工智能“ 也是我们强加给他们的一样,只是因为我们希望他们能够理解人类并为人类服务。所以我们这节主要探讨一下计算机中的排序。为了能够更简单地说明问题,我们假定要排序的是一系列正整数,且按升序排列。

More

自然语言计算机形式分析的理论与方法笔记(Ch03)

第三章:基于短语结构语法的形式模型

语法的 Chomsky 层级

  • W. Wundt 1990 年《大众心理学》提出把句子为成层次的思想;与此同时,传统的欧洲语法研究单词之间的关系,而不是单词所表示的成分之间的关系。
  • Leonard Bloomfield 1914 年在《语言研究导论》中将关于组成性的思想引入语言学。
  • 1933 年《语言论》时,“直接成分分析法” 已经成为完善的方法。欧洲的句法学家仍然强调以词为基础的语法(依存语法)。
  • Z. Harris 使用 “可替换性” 试验检验单独的单位 “分布相似性”:如果一个简单形式可以替换一个复杂结构,这个复杂结构就可能是一个成分。
  • 1956 年 N. Chomsky 定义短语结构语法,最早地形式化描述这种层次成分思想。

More

数据结构与算法:导论

什么是数据结构和算法?

先不考虑有关计算机的一切,我们思考一个问题:假设你所在的公司有员工上万人,如何编写一本能随身携带的通讯录?你可能首先需要搜集整理所有员工的个人信息,当然在此之前你得知道通讯录里面需要有哪些信息。我们假定需要以下员工个人信息:姓名、公司、部门、职务、手机号、电子邮箱、家庭地址,然后经过一番折腾,你终于把所有员工的这些信息搞到手了,你拥有的可能是部分电子表格、部分打印版的、部分手写的,电子表格同样的字段还有各种不同的格式,比如有的手机号是文本格式,有的又是数字格式等等。于是,你心里默默确认好各个字段的格式,然后新建了一张大表,把所有的电子表、非电子表信息全部整合到这一张表中。这时候我们需要考虑下一个问题,按什么顺序显示通讯录?你跟领导确认后得知需要先放公司领导,然后是各个职能部门及分公司,再是各个事业部及下面的子公司。你发现自己的信息表中压根就没考虑事业部,好吧,你可能需要在表中新插入一列 “事业部” 的字段。接下来呢?你还需要确认事业部下面公司的排序方式,每个公司部门的排序方式,每个部门员工的排序方式,你不能想当然地按照姓氏笔画或拼音,因为部门领导一般都要放在第一个然后是副职、主管这样一路下来,所以你还需要按职务大小排序。又经过一番折腾,你终于搞完了,在打印前你还需明确打印出来的小册子尺寸有多大,每个上面要显示多少位员工,然后才能在电子表中设置页面。你还可能需要考虑设置索引,至少到公司层面吧,如果贴心点你可能还会在公司分割线处做一些处理以便使用者可以快速翻到那一页。这看起来好像挺复杂的,但其实还有很多细节问题我们没有考虑,随便举几个例子:如果一个公司或部门正好只有个表头在某一页的最下方,要求这种直接把表头换到下一页;不同的字段要求不同的字体;字段内容太长的要求换行或缩小字体填充;所有人员信息以某个时间点为准,否则随时的人员进进出出会让你的通讯录永远无法完成;不同员工拿到的通讯录人员名单可能不同,你得根据权限设置。这些例子涉及到边界、格式、版本、权限等。噢,这还只是很普通的一个任务,实际中的任务(哪怕是做通讯录)都可能会比这更加复杂。

More

绘制文本分类数据

问题的起因是最近做的一个项目需要在后端绘制 Scatter,横轴是 float 数据,纵轴是分类的文本标签。具体的要求是:

  • 每个数据集可能有若干个主体,也就是一个画布可能需要绘制多幅图;
  • 每幅图的分类类型并不一定相同,但整体类别是知道的;比如:共有 8 种颜色 ”红橙黄绿青蓝紫“,但主体 1 的类别可能是 ”红橙黄“,主体 2 的类别可能是 ”红黄绿“;
  • 要保证同一种类别在图中的颜色标记是一样的,比如:红色类别是红色,那么如果某一个主体的类别中没有红色类别,其他类别在画图时也不应使用红色;
  • 要保证类别的顺序按给定的顺序;比如给定的顺序是 ”红橙黄绿青蓝紫“,主体 1 的类别是 ”红橙黄“,那绘制出来的图像 y 轴必须是按照这个顺序下来的,如果是 ”红黄蓝“ 也是类似。

本来项目是用 NodeJS 写的,后端画图找了不少工具都不太好用(前端工具巨多),后来用了 plotly/plotly-nodejs,但是表现力方面差强人意,而且由于是调用 RESTFul API,数据点太多时会超时,本身也会有网络请求耗时。最后就想到用 Python 在内部起一个 server,使用 Matplotlib 或 Seaborn 绘图。

Seaborn 一行命令就可以绘制,而且参数可以自动把不同的主体区分开;Matplotlib 就稍微麻烦些,不能直接实现预期的目的,后来经过试验,发现可以将类别转为数字然后再将数字的 y 轴转为 string 即可。

Notebook 在这里:text-classification-data,或用 nbviewer 打开:Jupyter Notebook Viewer