T5:Exploring the limits of Transfer Learning with a Unified Text-to-Text Transformer

论文:[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Code:google-research/text-to-text-transfer-transformer: Code for the paper “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”

一句话概述:把所有 NLP 任务统一成 Text-to-Text 格式使用 Transformer 统一处理。

摘要:迁移学习在 NLP 领域已经是最有效的方法,本文引入了统一的文本处理框架——将所有文本问题统一成 Text-to-Text 的格式。为了验证效果,构建了 C4 数据集(Colossal Clean Crawled Cropus),结果发现取得了很好的效果。

More

ExT5:Towards Extreme Multi-Task Scaling for Transfer Learning

论文:[2111.10952] ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning

Code:T5

一句话概述:任务数量很多时,不妨试试 MTL 预训练。

摘要:尽管多任务和迁移学习取得了巨大成功,但很少有工作研究预训练期间扩大任务数量的效果。本文提出 ExMIX(Extreme Mixture):一个包含 107 个有监督任务的跨领域大规模任务集合。并借此研究了迄今为止最大规模的多任务预训练效果,分析常见任务族之间的协同训练迁移。结果显示,为多任务预训练手动策划一组理想的任务并不简单,而且多任务扩展本身可以极大地改进模型。最后,提出 ExT5:使用自监督跨度去噪和监督 ExMIX 的多任务目标预训练模型,在多个数据集上超过了 T5。

More

《舞狮少年》观后——信念、文化与希望

疫情一波又一波,感觉已经很久没有出去过了,周六晚上舒璇说明天一起出去看个电影吧,好久没有活动了,最近正好上映了一部口碑很不错的片子。我好奇一问:“啥电影啊?”答:“舞狮少年”。我一想,哎,这不是昨晚看某个 UP 主提到过的影片么,说看起来像是鸡汤片。对鸡汤我一向是不喜欢的,可能是以前喝太多了,有点腻上头了。不过最后,当然是毫无异议地来到了电影院,我其实有点担心自己会睡着。

More

Multitask Prompted Training Enables Zero-shot Task Generalization

一句话描述:多任务 Prompt 可以明确影响 Zero-shot 学习。

论文:[2110.08207] Multitask Prompted Training Enables Zero-Shot Task Generalization

Code:bigscience-workshop/promptsource: Toolkit for collecting and applying prompts

摘要:大语言模型显示出可观的 Zero-shot 泛化能力,被假设成是语言模型中多任务训练暗含的结果,所以这个能力能不能体现的直接点?本文使用一大堆有监督数据集,每个又有多个不同自然语言的 prompt,通过微调一个预训练的 Encoder-Decoder 模型,取得不错的 Zero-shot 性能。真可谓是大数据集、大 prompt 出奇迹。

More

虚拟网络指南

问题的研究总是源于现实,这不,一直对虚拟机的几种网络懵懵懂懂,直到有个需求冒出来,这才想办法(有机会)一把撸掉。

业务背景描述:一台 Win10 的主机,跟了我很多年的 ThinkPad,只有 4 核 4G;由于工作、生活各种需要,里面用 VirtualBox 装了个 Ubuntu18 的虚拟机。平时写代码,跑个实验啥的就都在虚拟机上。突然需要在局域网多台终端上能够访问到虚拟机中的某个服务,自然少不了要一番配置,研究一天后终于把几个主流模式差不多搞清楚了,特记录如下。当然,尚有诸多细节留待日后继续研究。

先把官方文档的一张表放这里:

Mode VM→Host VM←Host VM1←→VM2 VM→Net/LAN VM←Net/LAN
Host-only + + + —(共享网卡后+)
Internal +
Bridged + + + + +
NAT + 端口转发 - + 端口转发
NATservice + 端口转发 + + 端口转发

表格来自:https://www.virtualbox.org/manual/ch06.html

More

Pretrain, Prompt and Predict, A Systematic Survey of Prompting Methods in NLP

论文:[2107.13586] Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Code:无

一句话概述:想办法在输入和标签之间搭一座桥。

摘要:与传统有监督学习不同的是,基于 Prompt 的学习基于语言模型直接对文本的概率进行建模。具体来说,为了使用这些模型执行预测任务,使用模板将原始输入 x 修改为具有一些未填充槽的文本字符串提示 x’,然后使用语言模型对未填充信息进行概率填充以获得最终字符串 x^,从中可以导出最终输出 y。这个框架强大且有吸引力的原因有很多:它允许语言模型在大量原始文本上进行预训练,并且通过定义一个新的 Prompt 函数,模型能够执行少样本甚至零样本学习,适应很少或没有标注数据的新场景。

More

Data Augmentation Approaches in Natural Language Processing:A Survey

论文:[2110.01852] Data Augmentation Approaches in Natural Language Processing: A Survey

Code:无

一句话概述:全面和结构化的数据增强文献综述。

摘要:DA 缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到 NLP 领域,并在许多任务上取得效果。一个主要的方向是增加训练数据的多样性,从而提高模型泛化能力。本文将 DA 方法基于增强数据的多样性分成三类:释义、噪声和采样,分别进行详细分析,另外也介绍了它们在 NLP 任务中的应用和挑战。

More

Debiasing Techniques for Pre-Trained Language Models

论文:[2110.08527] An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-Trained Language Models

Code:McGill-NLP/debias-eval

一句话概述:去偏技术尚不明朗。

摘要:研究表明预训练模型有一定的社会偏见(这个真得怪社会),所以我们不得不从技术角度去缓解它。本文主要从经验角度分析了五种最近的纠偏技术:Counterfactual Data Argumentation(CDA)、Dropout、Iterative Nullspace Projection,Self-Debias,SentenceDebias。在三个不同的 bias benchmark 上分别对其效果进行量化评估,同时评估了这些技术对模型的语言建模能力和下游任务表现的影响。结果如下:(1)CDA 和 Self-Debias 是最好的纠偏技术;(2)当前的纠偏技术不能很好地泛化到性别偏见之外;(3)纠偏通常伴随着语言建模能力的下降,从而难以确定偏差缓解是否有效。

More

Python Ellipsis

这几天在阅读一段源代码时,突然看到了这样的写法:

1
2
class A:
host: Text = ...

当时一愣——这三个点是个什么玩意儿,好像只在 numpy 中切片时用过,怎么突然出现在这里?嗯,于是就有了这篇小文,记录下这个有意思的玩意儿。总的来说,主要有以下几种用法:

  • Numpy Slice:表示「其他维度的所有值」
  • 类型提示:表示「不指定、可变的、任意的」参数类型
  • 占位符:表示类或方法还没写的 Body
  • 循环引用:表示一个循环引用,而不是满屏幕打印
  • 特殊标记:表示一个特殊的位置,比如结束、开始等

More

MetaICL:Learning to Learn In Context

论文:[2110.15943] MetaICL: Learning to Learn In Context

Code:facebookresearch/MetaICL: An original implementation of “MetaICL Learning to Learn In Context” by Sewon Min, Mike Lewis, Luke Zettlemoyer and Hannaneh Hajishirzi

一句话概述:任务的数量和多样性+Instruction是元学习的最佳实践。

摘要:MetaICL 是一种新的元训练框架,用于小样本学习,其中预训练模型被微调以在大量训练任务上进行上下文学习。这种元训练使模型在测试时能够更有效地学习上下文中的新任务,方法是在不更新参数或不需要任务特定模板的情况下简单地调整几个训练示例。本文对 142 个 NLP 数据集组成的任务集合进行实验,包括 CLS、QA、NLI、释义检测等,跨越 7 个不同的元训练/目标拆分。结果比已有的 Baseline(如没有 Meta 训练的 In-Context 学习,多任务学习,零样本转移)要好。而且,对于具有从元训练任务进行域转移的目标任务,收益尤其显着,并且使用不同的元训练任务集是改进的关键。另外,MetaICL 接近(有时甚至超过)在目标任务训练数据上完全微调的模型的性能,并且优于具有近 8 倍参数的更大模型。

More