Put Human in NLP Loop

这篇文章基于一篇 Survey（见核心文献），就是如何将人类的反馈放在 NLP 过程中，这个过程可以是训练，也可以是部署后，也可以是数据标注阶段。总之，它泛指把人类的反馈与 NLP 过程结合。

人生随笔

今天是除夕，一大早因为一个梦醒来了，不是噩梦，当然也不是美梦。要搁平时，肯定继续睡了，但上完厕所发现居然毫无睡意，而且很想写点什么。至于原因，好像也没什么原因，可能是近期一直想写点东西，也可能是马上又过完了一年，还有可能是年纪见长容易感慨。总之，好似有方向，但又无目的。

GPT3 和它的 In-Context Learning

ChatGPT 的爆火让很多 NLPer 大吃一惊，焦虑感爆棚，它的思路和方法都不复杂，但效果却出奇的好。我想任何研究成果的爆发都不可能是一蹴而就的，期间必然包含这一系列小的创新和优化。于是，重新把 GPT3 的 Paper 拉出来读了一遍，重点关注了实验结果之外的东西，果然发现不少细节。因此，本文还是以 GPT3 为主。

IDE Memo

IDE 相关备忘。

W2NER解读

NER 任务主要有三种类型：Flat（平铺）、overlapped（重叠或嵌套）、discontinuous（不连续），越来越多的研究致力于将它们统一起来。当前的 STOA 主要包括基于 Span 和 Seq2Seq 模型，不过它们很少关注边界，可能会导致后续的偏移。本文提出的统一方法（W2NER）是将其视为词词关系分类，为此引入两种词词关系：NNW（Next-Neighboring-Word）和 THW-*（Tail-Head-Word-*）。具体而言，构造一个 2D 的词词关系网格，然后使用多粒度 2D 卷积，以更好地细化网格表示。最后，使用一个共同预测器来推理词-词关系。

《麦肯锡战略化思维》读书笔记

很多职场人士会处于 PAID（Pressured，Action Addicted，Information Overload and Distracted，即压力、没时间思考、信息超载和无法专注）亚健康状态。理性思考、理性办事是我们应该有的习惯，但首先要走出心理上的舒适区和大脑快速思考的本能。本书介绍的结构化战略思维能让我们更加理性，对抗焦虑。前面部分是简化记录，后文是较详细记录。

四大原则

数字说话（行为准则）
洞见优于表象（行为准则）
MECE 原则（方法论）
假设为前提（方法论）

结构化战略思维框架

战略思维定义正确的问题
- SMART 原则
- 【六步】：背景、成功标准、边界、限制条件、责任人/相关人、资源
结构化分析（原则13）
- 3-3 原则四种【切】法：公式法、子目录列举法、流程法和逻辑框架法
- 单维、多维【图谱】：产品 BCG、客户消费者感知图、项目优先级分析、品类拓展分析
头脑风暴提出假设（原则24）
调研验证假设（原则12）
交付沟通（原则1-4）
- 【故事线】串联核心要素：Why 为什么、What 用什么、How 怎么解决、Why 为什么是你、HowMuch 投入产出
- 【SCP-I 框架】描述行业现状：S（规则）描述行业整体商业模式、C（行为）描述主流商业模式和竞争策略、P（业绩）包括财务和非财务

Global Pointer：Novel Efficient Span-based Approach for NER

Paper：[2208.03054] Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition

Code：https://github.com/bojone/bert4keras

一句话概述：全局指针识别 NER，Span 预测得到 NER 类型。

摘要：NER 任务是从一段文本中识别出预先定义的语义实体类型。SOTA 方案通常会因为捕获底层文本的细粒度语义信息而受到影响。基于 Span 的方法克服了这种缺陷，但性能是个问题。本文提出基于 Span 的 NER 框架——全局指针（GP），通过乘法注意力机制利用相对位置，目标是考虑开始和结束位置的全局视图来预测实体。除了设计了两个模块（Token 表征和 Span 预测）来识别实体外，还引入了一种新的损失函数来解决标签不均衡问题，另外还引入了一种简单有效的近似方法减少参数。实验表明 GP 胜过现有方案，此外损失函数也表现出有效性。

DeepGen：Diverse Search Ad Generation and Real-Time Customization

Paper：[2208.03438] DeepGen: Diverse Search Ad Generation and Real-Time Customization

Code：无

一句话概述：端到端广告文本生成方案。

摘要：DeepGen 是一个 Web 部署的用于为 Bing 广告客户自动生成搜索广告的系统。它使用最新的 NLG 模型从广告商的网页生成流畅的广告，并解决一些实际问题（真实性、推理速度）。系统会根据用户的搜索查询实时创建定制化广告，从而根据用户「正在寻找的内容」突出显示同一产品的不同方面。为了实现此目标，系统提前生成各种可选择的小广告片段素材，查询时选择最相关的拼接到完整广告中。通过训练可控 NLG 模型为同一网页生成多个广告，突出不同卖点，从而提高生成的多样性。更进一步，通过首先运行使用不同目标训练的生成模型集合，然后使用多样性采样算法选择不同生成结果子集进行在线选择，进一步横向提升了多样性。实验结果验证了系统设计的有效性，目前已部署生产环境，提供了必应投放的大约 4% 的全球广告。

只如初见的不只爱情

很久没有静心写一些文字了，回顾近大半年，感觉好像每天都在忙，时刻都有未做完的任务，时间就这样一点点慢慢流逝，安静的让人毫无知觉。

今天是 2022 年中秋假的第二天，第一天睡了大半天，第二天浑浑噩噩待了近一个白天，大脑完全不想动，只想着到处刷刷，随便刷什么。这不是在打发时间，只是一种大脑潜意识或有意识地在「放纵」，提不起精气神干任何该干的事。躺着刷手机到下午 6 点多，突然觉得应该下楼走走，于是一边遛狗，一边慢慢开始自己与自己的对话。

FLAN：Fine-tuned Language Models are Zero-Shot Learners

Paper：[2109.01652] Finetuned Language Models Are Zero-Shot Learners

Code：https://github.com/google-research/flan

一句话概述：指示微调赋予 MTL Zero-Shot 能力。

摘要：本文探索了一种简单的方法来提升语言模型的 Zero-Shot 能力——指示（或指令）微调（instruction tuning），在一组通过指示描述的数据集上对语言模型微调，大大提高了在未见过任务上的 Zero-Shot 能力。模型 137B，在超过 60 个使用描述模板描述的数据集上微调。FLAN 在 20/25 个任务上超过了 175B 的 GPT3，Few-Shot 能力也大部分超过了 GPT3。消融实结果发现，微调的数据集数量、模型规模、指示，这三个因素是指示微调的关键。

长琴

知乎：长琴 | 公众号：技术与人