zihangdai/xlnet: XLNet: Generalized Autoregressive Pretraining for Language Understanding
XLNet 的核心思想:PermutationLM 使用双向上下文 + Transformer-XL 对架构进行改进。
Abstract
BERT 忽略了屏蔽位置之间的依赖关系,会有预训练和 Fine-tuning 效果的差异。
XLNet:
- 通过最大化因式分解顺序所有可能排列的对数似然,学习双向语境信息。
- 依靠自回归克服了 BERT 的缺点。
此外,XLNet 还将最先进的自回归模型 Transformer-XL 的思想整合到预训练中。