1200字范文 > 论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

时间：2023-10-12 08:41:12

动机

远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据，但是其中噪声太多，影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响，但是仍然无法克服 bag 全部是错误标注的情形。为了换机噪声标注，本文提出基于对抗神经网络的方法，尝试从自动标注数据中清除噪声。实验结果表明，本文提出的方法能够有效去除噪声，提升远程监督方法的抽取性能。

方法框架

本文提出的方法包括一个生成器和一个判别器，他们的功能是：

生成器：生成器用于将关于关系 r 的有噪声的数据 P 划分成两组：表示正确标注数据的TP和表示错误标注数据的 FP。模型会输出每个句子是正确标注的概率，然后依据该概率抽样，得到 TP，剩余的作为 FP。

判别器：评价生成器生成的数据划分的好坏。评价的方法是：首先使用标注为关系 r 的数据 P 和非 r 的数据 N 对判别器做预训练。在评价生成器的划分 TP FP 时，有意颠倒 TP FP 的标签，即 TP 标记为负例，FP标记为正例，从而形成错误的训练数据，使用该数据继续训练判别器，看看该判别器性能下降情况。判别器性能下降越多，说明颠倒标签的TP FP越错误，也就是TP FP越正确。

对抗过程是：生成器生成数据划分之后，判别器通过训练过程来评价该划分的好坏，并将结果反馈给生成器。生成器根据反馈生成更好的数据，从而更大程度地降低判别器的判别能力。