Paper:2105.00828 BERT memorisation and pitfalls in low-resource scenarios
Code:无
核心思想:结合原型网络,将少样本的标签表征为稠密向量。
Paper:2105.00828 BERT memorisation and pitfalls in low-resource scenarios
Code:无
核心思想:结合原型网络,将少样本的标签表征为稠密向量。
Paper:[2002.12327] A Primer in BERTology: What we know about how BERT works
核心:全方位研究 BERT 到底学到了什么,怎么学的,效果如何,怎么改善。
一转眼转行已四年时间,这是转行以来第一次写关于个人对转行后感想心得的文章。一方面是因为所跨行业过大,行业内也有很多细分领域,要进一步明确方向需要不断试探。事实上,这几年基本能碰的都折腾过了,总算逐渐坚定;另一方面也是感觉一直没有从维度上得到提升,多个领域始终处于不得要领阶段,走了非常多的弯路。这次感受源于与一位资深算法工程师的沟通,又经几篇关于算法工程师工作日常和修养的好文,再加上这些年的积累,认真反思了几日,终于感觉到自己有了质的突破。虽然技能并没有多掌握,但确实比之前强大了不少(虽然依然很弱),有点像炼气期满筑基,奋斗之路刚刚开始,是有此文。
在之前那篇 NLP 表征的历史与未来 | Yam 里,我们几乎从头到尾都在提及句子表征,也提出过一个很重要的概念:“句子” 才是语义理解的最小单位。不过当时并没有太过深入细节,直到做到文本相似度任务时才发现早已经有人将其 BERT 化了。这就是本文要提到的一篇很重要但又很顺其自然的一篇论文——Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks。其实说到相似度,大家多少都会想到大名鼎鼎的 Siamese Recurrent Networks,他们当时(2016 年)用的是 LSTM 对句子表征,那是因为那时候 LSTM 效果是最好的。Sentence-BERT 其实就是将 LSTM 替换为 BERT。
Paper:[2011.05864] On the Sentence Embeddings from Pre-trained Language Models
核心思想:无监督方法将 Bert 产生的非平滑各向异性的句子语义空间分布转换为各向同性的高斯分布。
从 Ngram 这样最简单的 SLM(Statistical Language Model)和 OneHot、LSA 以及其他 Co-Occurrence 的 VSM 模型,到 Word2Vec Glove 等考虑简单上下文的词向量模型,再到 CNN RNN BI-LSTM 等更多上下文和更复杂结构的模型,再到基于 Self-Attention 的 Bert 等考虑注意力的模型。我们能够感觉到每一次的变革一定是某种 ”模式“ 层面发生了变化。
分类作为机器学习或深度学习的基础任务之一,相信任何一位算法工程师都能说得头头是道。不过,能深入思考其背后涉及到的认知过程和机理的就凤毛麟角了。本文涉及到的思考部分从我 2017 年一开始接触人工智能与 NLP 就开始萌芽了,这源于我的切入点与正常人不同。由于个人经历关系,我一开始是从认知科学这个角度开始自己的工程师生涯的,刚开始看的论文也更加偏向于思考如何构建真正的人工智能。比如,Few-Shot 或 One-Shot Learning、因果推理、快速思考、学习如何学习,甚至开始思考语言学以及究竟什么是智能。很自然地也熟知了图灵、冯诺依曼、维特根斯坦。直至现在依然对这些理论相当沉迷,这也是我当初下定决心从事 AI 领域的原因。虽然目前从事 NLP 研发工作,但我对自己的定位一直都是 AI 工程师,AI 不应该被割裂,他从来都是个整体,作为成年人,我们自然是都要。
2014 年,Facebook 在论文 practical-lessons-from-predicting-clicks-on-ads-at-facebook 中提出了一个将决策树算法和逻辑回归整合起来的模型,大致做法就是将输入的实数特征通过决策树转换为一个二进制的向量,该模型比其他方法在整体性能上提高超过 3 个百分点。
推荐系统可以看作是一个搜索排序系统,其中 input 是一组用户和上下文信息,output 是排好序的商品列表。推荐系统的一个挑战就是同时达到 memorization(记忆化)和 generalization(泛化)。
AND(installed_app=netfix, impression_app=pandora)AND(installed_category=video, impression_category=music),一般需要人工进行特征处理