早上收到从 Google Scholar 推送的宗成庆老师团队 2019 年的一篇 Paper:《Towards Sentence-Level Brain Decoding with Distributed Representations》,看这个题目觉得挺有趣就翻开读了读。这篇 Paper 研究的核心是:从大脑激活的模式解码整个句子,即构建解码器,通过分布式表示将大脑活动与句子刺激联系起来。并比较了句子表示与高级认知功能相关的不同大脑区域的对应关系,发现有监督的结构化表示模型最准确地探索了人类大脑的语言图谱。句子的表征 NLPer 们应该都很熟悉,那大脑的激活又是怎么弄呢?作者使用了 Nature 的一篇论文《Toward a universal decoder of linguistic meaning from brain activation》【1】中的研究成果,这篇论文主要研究从图像数据中解码语言(单词和句子)意义,结果表明,解码表示甚至可以区分语义相似的句子,并捕捉到句子之间意义关系的相似结构。这就是说,我们在看到不同的单词和句子时,大脑内部显示出不同的状态,这种状态甚至在很相似的句子之间也表现的不同。关于项目的详细情况可以查阅【2】(我没细看 :D)。
宗老师这篇 Paper 正好涉及到两个我个人比较感兴趣的点:认知科学和句子表征,关于这两个方面,我之前的几篇小文都涉及过,比如:
抛开认知部分不谈,句子表征也是一个很有意思的方向,因为相比「词」,「句子」才是基本的『语义单位』。恰巧这篇 Paper 中也提到了不少句子表征的方法,正好一起来个梳理,顺便表达一点自己的脑洞。
More →