Paper: coling2018_attribute.pdf
code: thunlp/attribute_charge
核心思想:基于类别属性的注意力机制共同学习属性感知和无属性的文本表示。
这是 COLING2018 上的一篇老论文了,最近因为一些事情正好遇上,当时大概看了一下就发现这篇文章正好解决了我之前在做多分类任务时没有解决的问题。所以拿来记录一下,顺便研究下代码。
Paper: coling2018_attribute.pdf
code: thunlp/attribute_charge
核心思想:基于类别属性的注意力机制共同学习属性感知和无属性的文本表示。
这是 COLING2018 上的一篇老论文了,最近因为一些事情正好遇上,当时大概看了一下就发现这篇文章正好解决了我之前在做多分类任务时没有解决的问题。所以拿来记录一下,顺便研究下代码。
之前整理过一篇关于信息提取的笔记,也是基于大名鼎鼎的 SLP 第 18 章的内容,最近在做一个 chatbot 的 NLMLayer 时涉及到了不少知识图谱有关的技术,由于 NLMLayer 默认的输入是 NLU 的 output,所以实体识别(包括实体和类别)已经自动完成了。接下来最重要的就是实体属性和关系提取了,所以这里就针对这块内容做一个整理。
属性一般的形式是(实体,属性,属性值),关系的一般形式是(实体,关系,实体)。简单来区分的话,关系涉及到两个实体,而属性只有一个实体。属性提取的文章比较少,关系提取方面倒是比较成熟,不过这两者之间其实可以借鉴的。具体的一些方法其实这里已经提到不少了,这里单独提出来再梳理一遍。
AINLP-DBC GPU 是一个 GPU 算力服务平台,采用 DBC TOKEN 进行结算。在这里可以租用 GPU,也可以将自己的 GPU 出租出去。
第一步:创建钱包
这里需要输入密码,之后会产生一个加密后的私钥文件,下载继续后会产生你真正的私钥。一定要记住你的密码并在物理介质上保存好加密后的私钥文件以及你的私钥。只有通过密码+加密的私钥文件,或者私钥才能打开你的钱包,如果都丢了,就等于你的钱包没了。
第二步:充值 DBC
点击 “如何购买 DBC” 链接,选择自己喜欢的方式充值即可,推荐使用支付宝,点击 “继续” 后,充值一定金额(比如 1块或者 0.1 块)就好了。这步其实就是给你的钱包地址充值一定数额的 DBC。大概等个几十秒就能在 “我的钱包” 里看到你购买金额对应的 DBC 数量了。
第三步:绑定邮箱
点击 “绑定邮箱” 后,输入邮箱地址,会给你发送一个类似 请输入如下数量dbc:0.7311,验证有效期为30分钟 内容的邮件,将对应的额度(比如这里的 0.7311)输入 “验证的 DBC 数量” 框即可完成绑定。
第四步:选择机器
在列表中选择一台符合自己要求的机器,点击 “租用” 后,填写租用时长(最短 1 小时),等待大约 1 分钟左右(验证机器环境),确认支付后就可以正式使用了。
Paper: ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
本来代码还没出来不想看的,不过前段时间确实太火了,先偷偷瞄一眼,看看到底是什么个情况。
核心思想:Replaced token detection Task + Transformer。
Deref TraitBox<T> Like a ReferenceDeref TraitDrop TraitRc<T> the Reference Counted Smart PointerRefCell<T> and the Interior Mutability PatternSync and Send TraitsReference counting smart pointer enables you to have multiple owners of data by keeping track of the number of owners and, when no owners remain, cleaning up the data.
References are pointers that only borrow data; in contrast, in many cases, smart pointers own the data they point to.
Smart pointers are usually implemented using structs. The characteristic that distinguishes a smart pointer from an ordinary struct is that smart pointers implement the Deref and Drop traits.
Deref trait allows an instance of the smart pointer struct to behave like a reference so you can write code that works with either references or smart pointers.Drop trait allows you to customize the code that is run when an instance of the smart pointer goes out of scope.ThreadPool Struct Using Compiler Driven DevelopmentnewWorker Struct Responsible for Sending Code from the ThreadPool to a Threadexecute Method1 | let foo = 5; // immutable |
1 | cargo doc --open // documents |
Post and Creating a New Instance in the Draft Stateapprove Method that Changes the Behavior of content本文主要介绍自然语言的记忆(存储与查询)模块,初衷是作为 chatbot 的 Layer 之一,主要功能是记忆(存储)从对话或训练数据学到的 “知识”,然后在需要时唤起(查询) 。目前成熟的方法是以图数据库作为载体,将知识存储为一系列的 ”节点“ 和 ”关系“。之后再基于这些存储的 ”节点“ 和 ”关系“ 进行相关查询。也可以理解为构建 Data Model 的问题。
项目地址:https://github.com/hscspring/NLM
图数据库的典型代表是 Neo4j,Neo4j 中有几个很重要的概念:标签、节点和关系。标签是一类节点,可以看作是节点的类别,节点一般是某一个实体;关系存在于两个实体间,可以有多种不同的关系。节点和关系可以有多个属性。实践来看,Python 语言可以使用社区的 technige/py2neo,当然还可以使用官方的 neo4j/neo4j-python-driver: Neo4j Bolt driver for Python,两者的目的都是将数据 import 进 database 并进行相应的查询。
Neo4j 的特点要求导入的数据尽量是结构化的,也就是我们要事先有实体和它的类别(实体的属性可有可无),实体与实体间的关系(关系的属性可有可无)。我们期待能从对话或无监督的语料中自动提取实体和关系,然后自动 import 进 Neo4j。为了避免导入数据的混乱,自然最好能有先验的 “类别”,比如节点类别 Person,Movie 等,关系类别 LOVES,ACTS 等。所以,对于文本输入,我们需要一个信息提取器,将文本中的符合先验类别的节点和关系提取出来。如果输入是 NLU 模块输出的 ”意图和实体“ ,则需要一个分类器,将意图分类到对应的 Relation 类别,将实体分类到 Node 类别。
接下来的问题是:“我们如何确定先验的类别?”设想当然是能包括所有可能的类别,比如我们可以在大规模语料上使用 LDA 之类的模型自动获取 topic,每个 topic 作为一个类别标签。对话中的句子使用该模型预测 topic 并在 query 无结果时加入 Database。但这样可能导致知识图谱比较泛,无法 “专注” 在特定领域。因此实际可能还是需要针对垂直领域手动设计好 Node 和 Relation 的类别。
综上所述,我们的 NLM 模块需要具备以下基本功能:
基本流程如下:
NLU Output/TEXT => Classifier/Extractor => Graph Input => Query/Add/Update => Parser => NLG (NLI) Input
主要是明确一下规范,这个规范是看过几个项目后的感悟,暂时没有想到更好的,等有了更好的再来调整吧。最好 Input 不依赖某个具体的数据库(如 Neo4j)。核心思想是这样的:
举个栗子,首先是数据:
1 | # 结构化的 data |
接着是 scheme ,可以使用 GraphObject 来直接创建 Graph scheme 对象,比如:
1 | # batch scheme |
然后将结构化的数据处理后批量导入:
1 | # execute |
具体可参考这里的例子。
从 NLU Output 或文本到 Graph Input 这步一般就是深度学习模型 + 传统的信息提取方法 + Naive 的兜底(比如类别字符串匹配)。如果看过《思考,快与慢》的话,这个 NLM 记忆层相当于系统 2,进到这里后出去是需要做一系列推理和判断的。至于系统 1,则直接从历史对话中得到,这方面可以借鉴这个项目,这时候就不需要图数据库了。
目前从 Graph Input 到存储、Query 这步已经完成了,并且两步自动合并为一步,即 NLM 会根据输入的 Node 或 Relation 的部分信息找到存储的对应的完整信息,同时它会自动判断(可以全局配置或在 Query 时配置)是不是要添加或更新。项目主页在这里,需要说明的是:属性不作为 Query 信息,仅作为对 Query 结果排序的依据。NLM 可以作为Python 模块使用,也可以作为 RPC 服务使用。在使用前需要做一些配置和操作,具体如下:
第一步:安装依赖
1 | # 使用 pipenv |
第二步:启动一个 Neo4j 实例
1 | $ docker run --rm -it -p 7475:7474 -p 7688:7687 neo4j |
这里我们使用 7475 和 7688 两个端口,和正式环境区分开,并且也不持久化存储数据。启动 docker 后,在浏览器中打开 http://localhost:7475/browser/,端口改成 7688,密码输入 neo4j,然后将密码改为 password。
如果你是在正式的环境下使用,可以这样:
1 | $ docker run --rm -it \ |
同时你需要创建环境变量
1 | NEO_SCHE:scheme |
举个例子:
1 | NEO_SCHE:bolt |
如果你不是通过配置文件,那建议使用 inishchith/autoenv: Directory-based environments.,将配置写到 .env 文件下,切换目录会自动加载目录下 .env 中的环境变量。注意,不要把 .env 文件提交到代码仓库。
测试环境下不需要配置环境变量,用的都是上面的默认值,比如端口用 7688,密码用 password 等。
第三步:运行测试
这步的主要目的是生产一点数据:
1 | $ pytest |
运行完后打开 http://localhost:7475/browser/,在 Query 框中输入查询语句就能看到节点和关系信息了,一共 8 个节点和 8 个关系:
1 | MATCH (_) RETURN _ |
1 | from py2neo.database import Graph |
NLMLayer 本质上是继承了 py2neo.Graph,所有 py2neo.Graph 的函数和方法,mem 都可以使用,比如:
1 | # 一个 Node Matcher |
详细可参考:3. py2neo.matching – Entity matching — The Py2neo v4 Handbook。
另外,如果模糊查询开启,则不会自动更新属性(即便配置了也不会),因为不确定模糊查到的节点是不是具备这些属性。但会自动添加节点,因为模糊查询都找不到的话,自动添加肯定是没问题的。
作为 RPC 服务,必须在启动时将 NLMLayer 的参数给配置好(当然不配置的话默认都是 False),因为你不能像模块那样在实际调用时覆盖。这样设计的目的是让接口简单、清晰,客户端不用(也不需要)考虑这些东西。
1 | $ python server.py [OPTIONS] |
客户端可以使用任何编程语言,详细情况可以阅读 gRPC 相关知识。
目前只有四个接口,但其实后两个并不能提供真正的服务:
仓库里有一个 Python 版本的客户端使用代码:client.py。
如果考虑到初衷,项目其实是个半成品,之所以发布出来是想听听更多人的建议,看看实际中到底有哪些应用场景,然后再做针对性地开发。这个毕竟是比较新的领域,我自己也没有很多实践经验。
对返回的结果数量,最开始的想法是只返回一个,后来给留了个 topn 的参数。这个功能在 RPC 中给取消了,主要还是因为后续没有完成,还有是考虑到最终其实只要一个结果,并不需要返回多个,以及 proto 写起来稍微清晰一些。设计的出发点是尽量让使用傻瓜式,比如模块主要功能的入口只有一个。
由于考虑到 Query 中可能有 props,而 props 实际上是 key value 都不确定的字典,这在 proto 中定义起来比较麻烦,一直没找到很合适的方法。所以干脆统一将 props 给序列化了,这样的做法导致 RPC Server 处理起来有一点点复杂。
Several weeks ago, we met a sort problem in our program of web app. We tried kinds of methods and finally have gotten a nearly 10 times performance improvement. The problem is very interesting and worth recording.
随着学习的不断深入,我们肯定会越来越不满足只在 Jupyter Notebook 中写一些小任务。我们可能会希望做一个 Web 应用,或者一个小程序,甚至是一个 APP。对于这种系统性的工程项目,框架就必不可少了,它可以极大地提高我们的效率。这节课我们就以 Python 的 Django 框架为例来开发一个小的 Web 应用程序。