W2NER解读

NER 任务主要有三种类型:Flat(平铺)、overlapped(重叠或嵌套)、discontinuous(不连续),越来越多的研究致力于将它们统一起来。当前的 STOA 主要包括基于 Span 和 Seq2Seq 模型,不过它们很少关注边界,可能会导致后续的偏移。本文提出的统一方法(W2NER)是将其视为词词关系分类,为此引入两种词词关系:NNWNext-Neighboring-Word)和 THW-*Tail-Head-Word-*)。具体而言,构造一个 2D 的词词关系网格,然后使用多粒度 2D 卷积,以更好地细化网格表示。最后,使用一个共同预测器来推理词-词关系。

More

《麦肯锡战略化思维》读书笔记

很多职场人士会处于 PAID(Pressured,Action Addicted,Information Overload and Distracted,即压力、没时间思考、信息超载和无法专注)亚健康状态。理性思考、理性办事是我们应该有的习惯,但首先要走出心理上的舒适区和大脑快速思考的本能。本书介绍的结构化战略思维能让我们更加理性,对抗焦虑。前面部分是简化记录,后文是较详细记录。

四大原则

  • 数字说话(行为准则)
  • 洞见优于表象(行为准则)
  • MECE 原则(方法论)
  • 假设为前提(方法论)

结构化战略思维框架

  • 战略思维定义正确的问题
    • SMART 原则
    • 【六步】:背景、成功标准、边界、限制条件、责任人/相关人、资源
  • 结构化分析(原则13)
    • 3-3 原则四种【切】法:公式法、子目录列举法、流程法和逻辑框架法
    • 单维、多维【图谱】:产品 BCG、客户消费者感知图、项目优先级分析、品类拓展分析
  • 头脑风暴提出假设(原则24)
  • 调研验证假设(原则12)
  • 交付沟通(原则1-4)
    • 【故事线】串联核心要素:Why 为什么、What 用什么、How 怎么解决、Why 为什么是你、HowMuch 投入产出
    • 【SCP-I 框架】描述行业现状:S(规则)描述行业整体商业模式、C(行为)描述主流商业模式和竞争策略、P(业绩)包括财务和非财务

More

Global Pointer:Novel Efficient Span-based Approach for NER

Paper:[2208.03054] Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition

Code:https://github.com/bojone/bert4keras

一句话概述:全局指针识别 NER,Span 预测得到 NER 类型。

摘要:NER 任务是从一段文本中识别出预先定义的语义实体类型。SOTA 方案通常会因为捕获底层文本的细粒度语义信息而受到影响。基于 Span 的方法克服了这种缺陷,但性能是个问题。本文提出基于 Span 的 NER 框架——全局指针(GP),通过乘法注意力机制利用相对位置,目标是考虑开始和结束位置的全局视图来预测实体。除了设计了两个模块(Token 表征和 Span 预测)来识别实体外,还引入了一种新的损失函数来解决标签不均衡问题,另外还引入了一种简单有效的近似方法减少参数。实验表明 GP 胜过现有方案,此外损失函数也表现出有效性。

More

DeepGen:Diverse Search Ad Generation and Real-Time Customization

Paper:[2208.03438] DeepGen: Diverse Search Ad Generation and Real-Time Customization

Code:无

一句话概述:端到端广告文本生成方案。

摘要:DeepGen 是一个 Web 部署的用于为 Bing 广告客户自动生成搜索广告的系统。它使用最新的 NLG 模型从广告商的网页生成流畅的广告,并解决一些实际问题(真实性、推理速度)。系统会根据用户的搜索查询实时创建定制化广告,从而根据用户「正在寻找的内容」突出显示同一产品的不同方面。为了实现此目标,系统提前生成各种可选择的小广告片段素材,查询时选择最相关的拼接到完整广告中。通过训练可控 NLG 模型为同一网页生成多个广告,突出不同卖点,从而提高生成的多样性。更进一步,通过首先运行使用不同目标训练的生成模型集合,然后使用多样性采样算法选择不同生成结果子集进行在线选择,进一步横向提升了多样性。实验结果验证了系统设计的有效性,目前已部署生产环境,提供了必应投放的大约 4% 的全球广告。

More

只如初见的不只爱情

很久没有静心写一些文字了,回顾近大半年,感觉好像每天都在忙,时刻都有未做完的任务,时间就这样一点点慢慢流逝,安静的让人毫无知觉。

今天是 2022 年中秋假的第二天,第一天睡了大半天,第二天浑浑噩噩待了近一个白天,大脑完全不想动,只想着到处刷刷,随便刷什么。这不是在打发时间,只是一种大脑潜意识或有意识地在「放纵」,提不起精气神干任何该干的事。躺着刷手机到下午 6 点多,突然觉得应该下楼走走,于是一边遛狗,一边慢慢开始自己与自己的对话。

More

FLAN:Fine-tuned Language Models are Zero-Shot Learners

Paper:[2109.01652] Finetuned Language Models Are Zero-Shot Learners

Code:https://github.com/google-research/flan

一句话概述:指示微调赋予 MTL Zero-Shot 能力。

摘要:本文探索了一种简单的方法来提升语言模型的 Zero-Shot 能力——指示(或指令)微调(instruction tuning),在一组通过指示描述的数据集上对语言模型微调,大大提高了在未见过任务上的 Zero-Shot 能力。模型 137B,在超过 60 个使用描述模板描述的数据集上微调。FLAN 在 20/25 个任务上超过了 175B 的 GPT3,Few-Shot 能力也大部分超过了 GPT3。消融实结果发现,微调的数据集数量、模型规模、指示,这三个因素是指示微调的关键。

More

跨视角大脑解码

Paper:[2204.09564] Cross-view Brain Decoding

一句话概述:跨视角的 Zero-Shot 推理和翻译是可行的。

摘要:大脑如何跨多个视角捕获语义仍然是个谜团,之前的都是单视角:如(1)带目标词标签的图片(WP);(2)使用目标词的句子(S);(3)包含带目标词的词云(WC)以及其他语义相关的词。本文提出跨视图翻译任务,如:图像字幕(IC)、图像标签(IT)、关键字提取(KE)和句子形成(SF),在此基础上研究大脑解码。通过实验证明了跨视角 Zero-Shot 是实用的,pairwise acc 大约为 68%。此外,解码后的表征在翻译任务上的 acc 表现也不错:IC(78%)、IT(83%)、KE(83.7 %)、SF(74.5%)。得出关于大脑的认知结论:(1)高比例的视觉像素参与 IC 和 IT 任务,高比例的语言像素参与 SF 和 KE 任务;(2)在 S 视角上训练并在 WC 视角上测试的 Zero-Shot 精度优于在 WC 视角上训练和测试。

本文 view 均描述为「视角」,其实类似于一种形式或模式;translation 描述为「翻译任务」,其实是从一种 view 到另一种,在本文是不同的刺激到文本。

More

统一NER为词词关系分类

Paper:[2112.10070] Unified Named Entity Recognition as Word-Word Relation Classification

一句话概述:基于词-词关系分类、可同时解决平铺、重叠和不连续 NER 的统一框架。

摘要:NER 任务主要有三种类型:Flat(平铺)、overlapped(重叠或嵌套)、discontinuous(不连续),越来越多的研究致力于将它们统一起来。当前的 STOA 主要包括基于 Span 和 Seq2Seq 模型,不过它们很少关注边界,可能会导致后续的偏移。本文提出的统一方法(W2NER)是将其视为词词关系分类,为此引入两种词词关系:NNWNext-Neighboring-Word)和 THW-*Tail-Head-Word-*)。具体而言,构造一个 2D 的词词关系网格,然后使用多粒度 2D 卷积,以更好地细化网格表示。最后,使用一个共同预测器来推理词-词关系。效果自然是最新的 STOA。

关于本文代码部分,可参考:W2NER 代码

More

MarkBERT

Paper:[2203.06378] MarkBERT: Marking Word Boundaries Improves Chinese BERT

一句话概述:在 Token 中加入你感兴趣的词的边界标记。

摘要:MarkBERT 不是基于词的 BERT,依然是基于字,但巧妙地将「词的边界标记」信息融入模型。这样可以统一处理任意词,无论是不是 OOV。另外,MarkBERT 还有两个额外的好处:首先,在边界标记上添加单词级别的学习目标很方便,这是对传统字符和句子级预训练任务的补充;其次,可以通过用 POS 标签特定的标记替换通用标记来轻松合并更丰富的语义。在 NER 任务上取得了 2 个点的提升,在文本分类、关键词识别、语义相似任务上也取得了更好的精度。

More