一句话概述：全局指针识别 NER，Span 预测得到 NER 类型。

摘要：NER 任务是从一段文本中识别出预先定义的语义实体类型。SOTA 方案通常会因为捕获底层文本的细粒度语义信息而受到影响。基于 Span 的方法克服了这种缺陷，但性能是个问题。本文提出基于 Span 的 NER 框架——全局指针（GP），通过乘法注意力机制利用相对位置，目标是考虑开始和结束位置的全局视图来预测实体。除了设计了两个模块（Token 表征和 Span 预测）来识别实体外，还引入了一种新的损失函数来解决标签不均衡问题，另外还引入了一种简单有效的近似方法减少参数。实验表明 GP 胜过现有方案，此外损失函数也表现出有效性。

DeepGen：Diverse Search Ad Generation and Real-Time Customization

Paper：[2208.03438] DeepGen: Diverse Search Ad Generation and Real-Time Customization

Code：无

一句话概述：端到端广告文本生成方案。

摘要：DeepGen 是一个 Web 部署的用于为 Bing 广告客户自动生成搜索广告的系统。它使用最新的 NLG 模型从广告商的网页生成流畅的广告，并解决一些实际问题（真实性、推理速度）。系统会根据用户的搜索查询实时创建定制化广告，从而根据用户「正在寻找的内容」突出显示同一产品的不同方面。为了实现此目标，系统提前生成各种可选择的小广告片段素材，查询时选择最相关的拼接到完整广告中。通过训练可控 NLG 模型为同一网页生成多个广告，突出不同卖点，从而提高生成的多样性。更进一步，通过首先运行使用不同目标训练的生成模型集合，然后使用多样性采样算法选择不同生成结果子集进行在线选择，进一步横向提升了多样性。实验结果验证了系统设计的有效性，目前已部署生产环境，提供了必应投放的大约 4% 的全球广告。

只如初见的不只爱情

很久没有静心写一些文字了，回顾近大半年，感觉好像每天都在忙，时刻都有未做完的任务，时间就这样一点点慢慢流逝，安静的让人毫无知觉。

今天是 2022 年中秋假的第二天，第一天睡了大半天，第二天浑浑噩噩待了近一个白天，大脑完全不想动，只想着到处刷刷，随便刷什么。这不是在打发时间，只是一种大脑潜意识或有意识地在「放纵」，提不起精气神干任何该干的事。躺着刷手机到下午 6 点多，突然觉得应该下楼走走，于是一边遛狗，一边慢慢开始自己与自己的对话。

FLAN：Fine-tuned Language Models are Zero-Shot Learners

Paper：[2109.01652] Finetuned Language Models Are Zero-Shot Learners

Code：https://github.com/google-research/flan

一句话概述：指示微调赋予 MTL Zero-Shot 能力。

摘要：本文探索了一种简单的方法来提升语言模型的 Zero-Shot 能力——指示（或指令）微调（instruction tuning），在一组通过指示描述的数据集上对语言模型微调，大大提高了在未见过任务上的 Zero-Shot 能力。模型 137B，在超过 60 个使用描述模板描述的数据集上微调。FLAN 在 20/25 个任务上超过了 175B 的 GPT3，Few-Shot 能力也大部分超过了 GPT3。消融实结果发现，微调的数据集数量、模型规模、指示，这三个因素是指示微调的关键。

W2NER 代码

本文主要讲述 W2NER 的代码，关于论文相关部分可阅读：统一NER为词词关系分类 | Yam。代码主要包括：输入、训练输出和解码部分，对于模型部分可参考前面的链接。

跨视角大脑解码

Paper：[2204.09564] Cross-view Brain Decoding

一句话概述：跨视角的 Zero-Shot 推理和翻译是可行的。

摘要：大脑如何跨多个视角捕获语义仍然是个谜团，之前的都是单视角：如（1）带目标词标签的图片（WP）；（2）使用目标词的句子（S）；（3）包含带目标词的词云（WC）以及其他语义相关的词。本文提出跨视图翻译任务，如：图像字幕（IC）、图像标签（IT）、关键字提取（KE）和句子形成（SF），在此基础上研究大脑解码。通过实验证明了跨视角 Zero-Shot 是实用的，pairwise acc 大约为 68%。此外，解码后的表征在翻译任务上的 acc 表现也不错：IC（78%）、IT（83%）、KE（83.7 %）、SF（74.5%）。得出关于大脑的认知结论：（1）高比例的视觉像素参与 IC 和 IT 任务，高比例的语言像素参与 SF 和 KE 任务；（2）在 S 视角上训练并在 WC 视角上测试的 Zero-Shot 精度优于在 WC 视角上训练和测试。

本文 view 均描述为「视角」，其实类似于一种形式或模式；translation 描述为「翻译任务」，其实是从一种 view 到另一种，在本文是不同的刺激到文本。

统一NER为词词关系分类

Paper：[2112.10070] Unified Named Entity Recognition as Word-Word Relation Classification

一句话概述：基于词-词关系分类、可同时解决平铺、重叠和不连续 NER 的统一框架。

摘要：NER 任务主要有三种类型：Flat（平铺）、overlapped（重叠或嵌套）、discontinuous（不连续），越来越多的研究致力于将它们统一起来。当前的 STOA 主要包括基于 Span 和 Seq2Seq 模型，不过它们很少关注边界，可能会导致后续的偏移。本文提出的统一方法（W2NER）是将其视为词词关系分类，为此引入两种词词关系：NNW（Next-Neighboring-Word）和 THW-*（Tail-Head-Word-*）。具体而言，构造一个 2D 的词词关系网格，然后使用多粒度 2D 卷积，以更好地细化网格表示。最后，使用一个共同预测器来推理词-词关系。效果自然是最新的 STOA。

关于本文代码部分，可参考：W2NER 代码。

预训练模型与传统方法在排序上有啥不同？

Paper：[2204.07233] How Different are Pre-trained Transformers for Text Ranking?

一句话概述：BM25 粗排+CE 精排，你值得拥有。

摘要：近年来与传统的检索模型和反馈方法相比，大规模预训练的效果有了显著提高。不过这些结果主要是基于 MS Macro/ TREC 设置，非常特殊，我们对模型为什么好的理解是分散的。本文在文档检索任务上分析了 BERT 的交叉编码器与传统的 BM25 ，研究两个问题：第一，它们的相似之处在哪里？深度学习方法在多大程度上包含了 BM25 的能力，性能的提升是否由于相同文档的排名更高。第二，它们的不同之处是什么？深度学习方法能否检索 BM25 漏掉的文档。

MarkBERT

Paper：[2203.06378] MarkBERT: Marking Word Boundaries Improves Chinese BERT

一句话概述：在 Token 中加入你感兴趣的词的边界标记。

摘要：MarkBERT 不是基于词的 BERT，依然是基于字，但巧妙地将「词的边界标记」信息融入模型。这样可以统一处理任意词，无论是不是 OOV。另外，MarkBERT 还有两个额外的好处：首先，在边界标记上添加单词级别的学习目标很方便，这是对传统字符和句子级预训练任务的补充；其次，可以通过用 POS 标签特定的标记替换通用标记来轻松合并更丰富的语义。在 NER 任务上取得了 2 个点的提升，在文本分类、关键词识别、语义相似任务上也取得了更好的精度。

量化NLM模型的记忆力

Paper：[2202.07646] Quantifying Memorization Across Neural Language Models

一句话概述：更大的模型更可能学到重复数据的特性，去重是缓解模型记忆危害的不错策略。

摘要：语言模型能够记住一些训练数据，如果经过合适地提示引导，可能会生成记住的数据。这肯定不太合适，因为可能会侵犯隐私、降低效用（重复的容易记住的词往往质量比较低），并且有失公平（有些文本被记住而有些没有）。本文描述了三个对数线性关系，量化了 LM 生成记忆数据的程度。记忆会显著增加，如果增大：（1）模型的容量，（2）样本的重复次数，（3）提示文的 Token 数量。总的来说，LM 的记忆比之前认识到的更普遍，并随着模型不断增大可能变得更糟。

长琴

知乎：长琴 | 公众号：技术与人

Global Pointer：Novel Efficient Span-based Approach for NER