FLAN:Fine-tuned Language Models are Zero-Shot Learners

Paper:[2109.01652] Finetuned Language Models Are Zero-Shot Learners

Code:https://github.com/google-research/flan

一句话概述:指示微调赋予 MTL Zero-Shot 能力。

摘要:本文探索了一种简单的方法来提升语言模型的 Zero-Shot 能力——指示(或指令)微调(instruction tuning),在一组通过指示描述的数据集上对语言模型微调,大大提高了在未见过任务上的 Zero-Shot 能力。模型 137B,在超过 60 个使用描述模板描述的数据集上微调。FLAN 在 20/25 个任务上超过了 175B 的 GPT3,Few-Shot 能力也大部分超过了 GPT3。消融实结果发现,微调的数据集数量、模型规模、指示,这三个因素是指示微调的关键。

More

跨视角大脑解码

Paper:[2204.09564] Cross-view Brain Decoding

一句话概述:跨视角的 Zero-Shot 推理和翻译是可行的。

摘要:大脑如何跨多个视角捕获语义仍然是个谜团,之前的都是单视角:如(1)带目标词标签的图片(WP);(2)使用目标词的句子(S);(3)包含带目标词的词云(WC)以及其他语义相关的词。本文提出跨视图翻译任务,如:图像字幕(IC)、图像标签(IT)、关键字提取(KE)和句子形成(SF),在此基础上研究大脑解码。通过实验证明了跨视角 Zero-Shot 是实用的,pairwise acc 大约为 68%。此外,解码后的表征在翻译任务上的 acc 表现也不错:IC(78%)、IT(83%)、KE(83.7 %)、SF(74.5%)。得出关于大脑的认知结论:(1)高比例的视觉像素参与 IC 和 IT 任务,高比例的语言像素参与 SF 和 KE 任务;(2)在 S 视角上训练并在 WC 视角上测试的 Zero-Shot 精度优于在 WC 视角上训练和测试。

本文 view 均描述为「视角」,其实类似于一种形式或模式;translation 描述为「翻译任务」,其实是从一种 view 到另一种,在本文是不同的刺激到文本。

More

统一NER为词词关系分类

Paper:[2112.10070] Unified Named Entity Recognition as Word-Word Relation Classification

一句话概述:基于词-词关系分类、可同时解决平铺、重叠和不连续 NER 的统一框架。

摘要:NER 任务主要有三种类型:Flat(平铺)、overlapped(重叠或嵌套)、discontinuous(不连续),越来越多的研究致力于将它们统一起来。当前的 STOA 主要包括基于 Span 和 Seq2Seq 模型,不过它们很少关注边界,可能会导致后续的偏移。本文提出的统一方法(W2NER)是将其视为词词关系分类,为此引入两种词词关系:NNWNext-Neighboring-Word)和 THW-*Tail-Head-Word-*)。具体而言,构造一个 2D 的词词关系网格,然后使用多粒度 2D 卷积,以更好地细化网格表示。最后,使用一个共同预测器来推理词-词关系。效果自然是最新的 STOA。

关于本文代码部分,可参考:W2NER 代码

More

MarkBERT

Paper:[2203.06378] MarkBERT: Marking Word Boundaries Improves Chinese BERT

一句话概述:在 Token 中加入你感兴趣的词的边界标记。

摘要:MarkBERT 不是基于词的 BERT,依然是基于字,但巧妙地将「词的边界标记」信息融入模型。这样可以统一处理任意词,无论是不是 OOV。另外,MarkBERT 还有两个额外的好处:首先,在边界标记上添加单词级别的学习目标很方便,这是对传统字符和句子级预训练任务的补充;其次,可以通过用 POS 标签特定的标记替换通用标记来轻松合并更丰富的语义。在 NER 任务上取得了 2 个点的提升,在文本分类、关键词识别、语义相似任务上也取得了更好的精度。

More

预训练模型与传统方法在排序上有啥不同?

Paper:[2204.07233] How Different are Pre-trained Transformers for Text Ranking?

一句话概述:BM25 粗排+CE 精排,你值得拥有。

摘要:近年来与传统的检索模型和反馈方法相比,大规模预训练的效果有了显著提高。不过这些结果主要是基于 MS Macro/ TREC 设置,非常特殊,我们对模型为什么好的理解是分散的。本文在文档检索任务上分析了 BERT 的交叉编码器与传统的 BM25 ,研究两个问题:第一,它们的相似之处在哪里?深度学习方法在多大程度上包含了 BM25 的能力,性能的提升是否由于相同文档的排名更高。第二,它们的不同之处是什么?深度学习方法能否检索 BM25 漏掉的文档。

More

量化NLM模型的记忆力

Paper:[2202.07646] Quantifying Memorization Across Neural Language Models

一句话概述:更大的模型更可能学到重复数据的特性,去重是缓解模型记忆危害的不错策略。

摘要:语言模型能够记住一些训练数据,如果经过合适地提示引导,可能会生成记住的数据。这肯定不太合适,因为可能会侵犯隐私、降低效用(重复的容易记住的词往往质量比较低),并且有失公平(有些文本被记住而有些没有)。本文描述了三个对数线性关系,量化了 LM 生成记忆数据的程度。记忆会显著增加,如果增大:(1)模型的容量,(2)样本的重复次数,(3)提示文的 Token 数量。总的来说,LM 的记忆比之前认识到的更普遍,并随着模型不断增大可能变得更糟。

More

NLP预训练模型的不可能三角

Paper:[2204.06130] Impossible Triangle: What’s Next for Pre-trained Language Models?

一句话概述:提出 NLP 模型的不可能三角并基于此提出未来的研究方向。

摘要:本文主要描述了 PLM 的不可能三角:中等模型大小(1B以下),SOTA few-shot 能力,SOTA 微调能力。目前所有的 PLM 都缺其中一个或多个。很多注入知识蒸馏、数据增强、Prompt 的方法用以缓解这些缺失,但却在实际中带来了新的工作量。本文提供了一个未来的研究方向,将任务分解成几个关键阶段来实现不可能三角。

More

Training Data is More Valuable than You Think

论文:[2203.08773] Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data

Code:microsoft/REINA

一句话概述:在检索任务中训练数据在推理时也大有用处。

摘要:从大规模数据中检索通常比较耗时,仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例,拼接后作为输入喂入模型,然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。

More

句子表征综述

早上收到从 Google Scholar 推送的宗成庆老师团队 2019 年的一篇 Paper:《Towards Sentence-Level Brain Decoding with Distributed Representations》,看这个题目觉得挺有趣就翻开读了读。这篇 Paper 研究的核心是:从大脑激活的模式解码整个句子,即构建解码器,通过分布式表示将大脑活动与句子刺激联系起来。并比较了句子表示与高级认知功能相关的不同大脑区域的对应关系,发现有监督的结构化表示模型最准确地探索了人类大脑的语言图谱。句子的表征 NLPer 们应该都很熟悉,那大脑的激活又是怎么弄呢?作者使用了 Nature 的一篇论文《Toward a universal decoder of linguistic meaning from brain activation》【1】中的研究成果,这篇论文主要研究从图像数据中解码语言(单词和句子)意义,结果表明,解码表示甚至可以区分语义相似的句子,并捕捉到句子之间意义关系的相似结构。这就是说,我们在看到不同的单词和句子时,大脑内部显示出不同的状态,这种状态甚至在很相似的句子之间也表现的不同。关于项目的详细情况可以查阅【2】(我没细看 :D)。

宗老师这篇 Paper 正好涉及到两个我个人比较感兴趣的点:认知科学和句子表征,关于这两个方面,我之前的几篇小文都涉及过,比如:

抛开认知部分不谈,句子表征也是一个很有意思的方向,因为相比「词」,「句子」才是基本的『语义单位』。恰巧这篇 Paper 中也提到了不少句子表征的方法,正好一起来个梳理,顺便表达一点自己的脑洞。

More