一句话概述:去偏技术尚不明朗。
摘要:研究表明预训练模型有一定的社会偏见(这个真得怪社会),所以我们不得不从技术角度去缓解它。本文主要从经验角度分析了五种最近的纠偏技术:Counterfactual Data Argumentation(CDA)、Dropout、Iterative Nullspace Projection,Self-Debias,SentenceDebias。在三个不同的 bias benchmark 上分别对其效果进行量化评估,同时评估了这些技术对模型的语言建模能力和下游任务表现的影响。结果如下:(1)CDA 和 Self-Debias 是最好的纠偏技术;(2)当前的纠偏技术不能很好地泛化到性别偏见之外;(3)纠偏通常伴随着语言建模能力的下降,从而难以确定偏差缓解是否有效。