Data Augmentation Approaches in Natural Language Processing:A Survey

论文:[2110.01852] Data Augmentation Approaches in Natural Language Processing: A Survey

Code:无

一句话概述:全面和结构化的数据增强文献综述。

摘要:DA 缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到 NLP 领域,并在许多任务上取得效果。一个主要的方向是增加训练数据的多样性,从而提高模型泛化能力。本文将 DA 方法基于增强数据的多样性分成三类:释义、噪声和采样,分别进行详细分析,另外也介绍了它们在 NLP 任务中的应用和挑战。

More

Debiasing Techniques for Pre-Trained Language Models

论文:[2110.08527] An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-Trained Language Models

Code:McGill-NLP/debias-eval

一句话概述:去偏技术尚不明朗。

摘要:研究表明预训练模型有一定的社会偏见(这个真得怪社会),所以我们不得不从技术角度去缓解它。本文主要从经验角度分析了五种最近的纠偏技术:Counterfactual Data Argumentation(CDA)、Dropout、Iterative Nullspace Projection,Self-Debias,SentenceDebias。在三个不同的 bias benchmark 上分别对其效果进行量化评估,同时评估了这些技术对模型的语言建模能力和下游任务表现的影响。结果如下:(1)CDA 和 Self-Debias 是最好的纠偏技术;(2)当前的纠偏技术不能很好地泛化到性别偏见之外;(3)纠偏通常伴随着语言建模能力的下降,从而难以确定偏差缓解是否有效。

More

Python Ellipsis

这几天在阅读一段源代码时,突然看到了这样的写法:

1
2
class A:
host: Text = ...

当时一愣——这三个点是个什么玩意儿,好像只在 numpy 中切片时用过,怎么突然出现在这里?嗯,于是就有了这篇小文,记录下这个有意思的玩意儿。总的来说,主要有以下几种用法:

  • Numpy Slice:表示「其他维度的所有值」
  • 类型提示:表示「不指定、可变的、任意的」参数类型
  • 占位符:表示类或方法还没写的 Body
  • 循环引用:表示一个循环引用,而不是满屏幕打印
  • 特殊标记:表示一个特殊的位置,比如结束、开始等

More

MetaICL:Learning to Learn In Context

论文:[2110.15943] MetaICL: Learning to Learn In Context

Code:facebookresearch/MetaICL: An original implementation of “MetaICL Learning to Learn In Context” by Sewon Min, Mike Lewis, Luke Zettlemoyer and Hannaneh Hajishirzi

一句话概述:任务的数量和多样性+Instruction是元学习的最佳实践。

摘要:MetaICL 是一种新的元训练框架,用于小样本学习,其中预训练模型被微调以在大量训练任务上进行上下文学习。这种元训练使模型在测试时能够更有效地学习上下文中的新任务,方法是在不更新参数或不需要任务特定模板的情况下简单地调整几个训练示例。本文对 142 个 NLP 数据集组成的任务集合进行实验,包括 CLS、QA、NLI、释义检测等,跨越 7 个不同的元训练/目标拆分。结果比已有的 Baseline(如没有 Meta 训练的 In-Context 学习,多任务学习,零样本转移)要好。而且,对于具有从元训练任务进行域转移的目标任务,收益尤其显着,并且使用不同的元训练任务集是改进的关键。另外,MetaICL 接近(有时甚至超过)在目标任务训练数据上完全微调的模型的性能,并且优于具有近 8 倍参数的更大模型。

More

浅析文本分类——情感分析与自然语言处理

文本分类是自然语言处理(以下使用 NLP 简称)最基础核心的任务,或者换句话说,几乎所有的任务都是「分类」任务,或者涉及到「分类」这个概念。比如分词、词性标注、命名实体识别等序列标注任务其实就是 Token 粒度的分类;再比如文本生成其实也可以理解为 Token 粒度在整个词表上的分类任务。为何会如此?这篇分类与AI可能会给您带来一点启示。

本文篇幅较长,主要分为以下几个部分:

  • 背景介绍:主要简单介绍情感分析相关的概念、类型,并和文本分类任务对应。
  • 基本流程:主要介绍文本分类(或常见的 NLP 任务)基本处理流程。
  • 模型简史:主要介绍 NLP 处理任务中模型变迁的简单历史。
  • 情感未来:主要探讨未来情感分析可能的发展方向。

本文侧重于从宏观角度(历史演变和基本流程)对文本情感分类任务进行介绍,目的是给读者提供一个整体视角,从高远处审视情感分析、文本分类、甚至 NLP,期望能抛砖引玉,引发读者更多的思考。如果您想了解工业界的具体方案和进展,最后的《文献资料》部分有两篇来自淘系和美团的文章值得仔细研究。

本文同样适合对机器学习和深度学习稍微有一些了解的非算法岗位的工程师,或其他无技术背景但对 NLP 感兴趣的非工程师。

More

TensorBay 指南

Introduction

本篇文章主要介绍如何使用 Tensorbay 和 Tensorflow 进行简单的文本分类。

我们首先介绍 Tensorbay 相关使用,然后简单介绍 NLP 领域常用的分类模型:TextCNN,最后将所有的串起来完成一个简单的文本分类任务。

More

R-Drop

论文:[2106.14448] R-Drop: Regularized Dropout for Neural Networks

Code:dropreg/R-Drop

一句话概述:用 KL 散度作为损失的 SimCSE。

摘要:Dropout 是深度学习训练时广泛使用的正则化工具,本文提出 R-Drop,强迫不同 Dropout 模型(就是带 Dropout 的模型跑两次数据)的输出分布彼此保持一致。具体通过最小化两个输出的双向 KL 散度,R-Drop 降低了模型参数的自由度并补充了 Dropout,从而降低了模型的空间复杂度,增强了泛化能力。效果那自然也是非常不错的。

More

高性能数据处理

最近在写深度学习开源库时,遇到了读取语料并预处理的 API,于是趁此机会整理一下之前积累的关于高性能的内容。全文包括两个部分:第一部分主要聚焦在常用工具 Pandas 处理数据时不同操作方法的性能;第二部分主要介绍一些加速数值计算的工具;第三部分主要介绍一些能够辅助增加性能的工具。

如果懒得看过程,可以直接看结论:

  • 数值计算任务:numbaCython 加速;使用 .values 计算
  • 遍历的非数值计算任务:df.itertuplesdf.apply 方法
  • 数据太大 Pandas 处理不了的可以使用 Arrow 和 Polars,再不行了使用 Spark

所有测试代码在:Note_DS/Performance.ipynb

More