Paper: ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
本来代码还没出来不想看的,不过前段时间确实太火了,先偷偷瞄一眼,看看到底是什么个情况。
核心思想:Replaced token detection Task + Transformer。
Paper: ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
本来代码还没出来不想看的,不过前段时间确实太火了,先偷偷瞄一眼,看看到底是什么个情况。
核心思想:Replaced token detection Task + Transformer。
Deref TraitBox<T> Like a ReferenceDeref TraitDrop TraitRc<T> the Reference Counted Smart PointerRefCell<T> and the Interior Mutability PatternSync and Send TraitsReference counting smart pointer enables you to have multiple owners of data by keeping track of the number of owners and, when no owners remain, cleaning up the data.
References are pointers that only borrow data; in contrast, in many cases, smart pointers own the data they point to.
Smart pointers are usually implemented using structs. The characteristic that distinguishes a smart pointer from an ordinary struct is that smart pointers implement the Deref and Drop traits.
Deref trait allows an instance of the smart pointer struct to behave like a reference so you can write code that works with either references or smart pointers.Drop trait allows you to customize the code that is run when an instance of the smart pointer goes out of scope.ThreadPool Struct Using Compiler Driven DevelopmentnewWorker Struct Responsible for Sending Code from the ThreadPool to a Threadexecute Method1 | let foo = 5; // immutable |
1 | cargo doc --open // documents |
Post and Creating a New Instance in the Draft Stateapprove Method that Changes the Behavior of content本文主要介绍自然语言的记忆(存储与查询)模块,初衷是作为 chatbot 的 Layer 之一,主要功能是记忆(存储)从对话或训练数据学到的 “知识”,然后在需要时唤起(查询) 。目前成熟的方法是以图数据库作为载体,将知识存储为一系列的 ”节点“ 和 ”关系“。之后再基于这些存储的 ”节点“ 和 ”关系“ 进行相关查询。也可以理解为构建 Data Model 的问题。
项目地址:https://github.com/hscspring/NLM
图数据库的典型代表是 Neo4j,Neo4j 中有几个很重要的概念:标签、节点和关系。标签是一类节点,可以看作是节点的类别,节点一般是某一个实体;关系存在于两个实体间,可以有多种不同的关系。节点和关系可以有多个属性。实践来看,Python 语言可以使用社区的 technige/py2neo,当然还可以使用官方的 neo4j/neo4j-python-driver: Neo4j Bolt driver for Python,两者的目的都是将数据 import 进 database 并进行相应的查询。
Neo4j 的特点要求导入的数据尽量是结构化的,也就是我们要事先有实体和它的类别(实体的属性可有可无),实体与实体间的关系(关系的属性可有可无)。我们期待能从对话或无监督的语料中自动提取实体和关系,然后自动 import 进 Neo4j。为了避免导入数据的混乱,自然最好能有先验的 “类别”,比如节点类别 Person,Movie 等,关系类别 LOVES,ACTS 等。所以,对于文本输入,我们需要一个信息提取器,将文本中的符合先验类别的节点和关系提取出来。如果输入是 NLU 模块输出的 ”意图和实体“ ,则需要一个分类器,将意图分类到对应的 Relation 类别,将实体分类到 Node 类别。
接下来的问题是:“我们如何确定先验的类别?”设想当然是能包括所有可能的类别,比如我们可以在大规模语料上使用 LDA 之类的模型自动获取 topic,每个 topic 作为一个类别标签。对话中的句子使用该模型预测 topic 并在 query 无结果时加入 Database。但这样可能导致知识图谱比较泛,无法 “专注” 在特定领域。因此实际可能还是需要针对垂直领域手动设计好 Node 和 Relation 的类别。
综上所述,我们的 NLM 模块需要具备以下基本功能:
基本流程如下:
NLU Output/TEXT => Classifier/Extractor => Graph Input => Query/Add/Update => Parser => NLG (NLI) Input
主要是明确一下规范,这个规范是看过几个项目后的感悟,暂时没有想到更好的,等有了更好的再来调整吧。最好 Input 不依赖某个具体的数据库(如 Neo4j)。核心思想是这样的:
举个栗子,首先是数据:
1 | # 结构化的 data |
接着是 scheme ,可以使用 GraphObject 来直接创建 Graph scheme 对象,比如:
1 | # batch scheme |
然后将结构化的数据处理后批量导入:
1 | # execute |
具体可参考这里的例子。
从 NLU Output 或文本到 Graph Input 这步一般就是深度学习模型 + 传统的信息提取方法 + Naive 的兜底(比如类别字符串匹配)。如果看过《思考,快与慢》的话,这个 NLM 记忆层相当于系统 2,进到这里后出去是需要做一系列推理和判断的。至于系统 1,则直接从历史对话中得到,这方面可以借鉴这个项目,这时候就不需要图数据库了。
目前从 Graph Input 到存储、Query 这步已经完成了,并且两步自动合并为一步,即 NLM 会根据输入的 Node 或 Relation 的部分信息找到存储的对应的完整信息,同时它会自动判断(可以全局配置或在 Query 时配置)是不是要添加或更新。项目主页在这里,需要说明的是:属性不作为 Query 信息,仅作为对 Query 结果排序的依据。NLM 可以作为Python 模块使用,也可以作为 RPC 服务使用。在使用前需要做一些配置和操作,具体如下:
第一步:安装依赖
1 | # 使用 pipenv |
第二步:启动一个 Neo4j 实例
1 | $ docker run --rm -it -p 7475:7474 -p 7688:7687 neo4j |
这里我们使用 7475 和 7688 两个端口,和正式环境区分开,并且也不持久化存储数据。启动 docker 后,在浏览器中打开 http://localhost:7475/browser/,端口改成 7688,密码输入 neo4j,然后将密码改为 password。
如果你是在正式的环境下使用,可以这样:
1 | $ docker run --rm -it \ |
同时你需要创建环境变量
1 | NEO_SCHE:scheme |
举个例子:
1 | NEO_SCHE:bolt |
如果你不是通过配置文件,那建议使用 inishchith/autoenv: Directory-based environments.,将配置写到 .env 文件下,切换目录会自动加载目录下 .env 中的环境变量。注意,不要把 .env 文件提交到代码仓库。
测试环境下不需要配置环境变量,用的都是上面的默认值,比如端口用 7688,密码用 password 等。
第三步:运行测试
这步的主要目的是生产一点数据:
1 | $ pytest |
运行完后打开 http://localhost:7475/browser/,在 Query 框中输入查询语句就能看到节点和关系信息了,一共 8 个节点和 8 个关系:
1 | MATCH (_) RETURN _ |
1 | from py2neo.database import Graph |
NLMLayer 本质上是继承了 py2neo.Graph,所有 py2neo.Graph 的函数和方法,mem 都可以使用,比如:
1 | # 一个 Node Matcher |
详细可参考:3. py2neo.matching – Entity matching — The Py2neo v4 Handbook。
另外,如果模糊查询开启,则不会自动更新属性(即便配置了也不会),因为不确定模糊查到的节点是不是具备这些属性。但会自动添加节点,因为模糊查询都找不到的话,自动添加肯定是没问题的。
作为 RPC 服务,必须在启动时将 NLMLayer 的参数给配置好(当然不配置的话默认都是 False),因为你不能像模块那样在实际调用时覆盖。这样设计的目的是让接口简单、清晰,客户端不用(也不需要)考虑这些东西。
1 | $ python server.py [OPTIONS] |
客户端可以使用任何编程语言,详细情况可以阅读 gRPC 相关知识。
目前只有四个接口,但其实后两个并不能提供真正的服务:
仓库里有一个 Python 版本的客户端使用代码:client.py。
如果考虑到初衷,项目其实是个半成品,之所以发布出来是想听听更多人的建议,看看实际中到底有哪些应用场景,然后再做针对性地开发。这个毕竟是比较新的领域,我自己也没有很多实践经验。
对返回的结果数量,最开始的想法是只返回一个,后来给留了个 topn 的参数。这个功能在 RPC 中给取消了,主要还是因为后续没有完成,还有是考虑到最终其实只要一个结果,并不需要返回多个,以及 proto 写起来稍微清晰一些。设计的出发点是尽量让使用傻瓜式,比如模块主要功能的入口只有一个。
由于考虑到 Query 中可能有 props,而 props 实际上是 key value 都不确定的字典,这在 proto 中定义起来比较麻烦,一直没找到很合适的方法。所以干脆统一将 props 给序列化了,这样的做法导致 RPC Server 处理起来有一点点复杂。
Several weeks ago, we met a sort problem in our program of web app. We tried kinds of methods and finally have gotten a nearly 10 times performance improvement. The problem is very interesting and worth recording.
随着学习的不断深入,我们肯定会越来越不满足只在 Jupyter Notebook 中写一些小任务。我们可能会希望做一个 Web 应用,或者一个小程序,甚至是一个 APP。对于这种系统性的工程项目,框架就必不可少了,它可以极大地提高我们的效率。这节课我们就以 Python 的 Django 框架为例来开发一个小的 Web 应用程序。
这个系列的课程的目标在《在开始前》已经说得很清楚了:解决重复劳动或自己做好玩儿的小项目;尝试新的思维方式。这短短的几节课要想把 Python 的相关知识面面俱到是不可能的,但我觉得已经给出了一个全图景,大家只要围绕这个做,达到目标应该是不成问题的。我想说的还是一直提倡的:Just do it,在实践中不断成长。
学编程最重要的就是写代码、读代码。上节提到了要阅读大神的或优秀的代码,之前也一直在强调要动手实践,这节咱们关注下如何阅读源代码。好的源代码不仅能让我们学到关于编程的知识,而且还有如何思考问题、抽象业务、设计架构等等方面知识。
上节介绍了函数,简单理解就是实现特定功能的一组代码,方便复用。本节介绍的模块其实就是把函数组合起来作为模块,让更加便利地完成任务。使用模块我们可以非常迅速地实现很多任务,而不用自己动手实现。Python 中的模块分为内置的(Python 安装后就有的)和社区模块(需要通过 pip install xxx 安装的)。