1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD阅读笔记

Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD阅读笔记

时间:2018-12-19 17:15:40

相关推荐

Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD阅读笔记

Strong Baselines for Author Name Disambiguation with and without Neural Network-PAKDD

摘要

作者姓名消歧(AND)是科学计量学中最重要的问题之一,随着高校数字图书馆的快速发展,这一问题已成为一个巨大的挑战。

现有方法:

此任务的现有方法基本上依赖于类似于复杂集群的架构,它们通常假定集群的数量是预先已知的,或者通过应用另一个模型来预测集群的数量,这涉及到越来越复杂和耗时的架构。

作者的方法:

在本文中,我们将简单的神经网络与两组启发式规则相结合,在没有任何关于聚类大小的先验知识或估计的情况下,探索作者姓名消歧问题的强基线,从而将模型从不必要的复杂性中解放出来。

实验结果:

在一个流行的基准数据集AMiner上,我们的解决方案在性能和效率方面都明显优于几种最先进的方法,而且当只使用一组规则时,它仍然可以与许多复杂模型实现相当的性能。实验结果还表明,从复杂的深度学习技术中获得的收益在名称消歧问题上相当有限。

1.介绍

作者姓名消歧(and)问题在历史上和最近都引起了极大的兴趣,该问题可以定义为使用出版物记录的元数据(标题、地点、关键字、作者姓名和隶属关系等)对唯一作者进行聚类的问题[11,19,23]。随着科学文献的快速增长,消歧问题已成为迫在眉睫的问题,因为许多下游应用程序都受到其偏好的影响,例如信息检索和书目数据分析[5,13]。但不幸的是,AND并不是一个基本问题,因为不同的作者可能会使用同一个名字,这对于亚洲人来说非常常见,尤其是中国研究人员[9],因为在将不同的中文名字映射到英语时会是相同的(例如,王伟和汪卫翻译成英文都是 Wei Wang)。

消除谁是谁的歧义的问题至少可以追溯到几十年前,通常被视为一个聚类问题,并由各种聚类模型解决,这些模型不可避免地要回答两个问题,即如何量化相似性和如何确定聚类大小[8]。现有的许多文献主要集中于回答第一个问题,如基于特征的方法[12,13]和基于图的方法[3,16,20]。事实上,其中相当一部分涉及到越来越复杂和耗时的体系结构,与之前的最先进技术相比,这些体系结构产生的收益越来越小。当涉及到第二个问题时,大多数以前的方法都假设集群的数量是预先已知的,或者通过应用另一个模型来预测集群的数量[25]。然而,毫无疑问,前者在实际情况下是不现实的,后者可能导致错误传播。

在这种推动下,我们认为作者姓名消歧不是一个典型的聚类任务。从这个问题的根源来看,我们应该更加注意精确度,然后是召回,因为一旦两个聚类被错误地合并,重新分割它们几乎是不可能的过程。有鉴于此,许多现有的聚类模型都不太适合作者姓名消歧问题。同时,具有成本效益的阻塞技术[1]和基于规则的轻量级方法[2,22]值得研究,因为它们已被证明在这个问题上能够达到令人信服的精度。( cost-effective blocking technique and lightweight rule-based methods )

现有的研究旨在通过专注于洞察力和知识来提高经验的严谨性,而不是简单地“获胜”[17],根据这一研究,我们剥离了不必要的组成部分,直到我们得到了最简单的模型,该模型在没有任何关于聚类大小的先验知识的情况下运行良好,该模型仅由简单的神经网络和一些启发式规则组成。此外,采用层次聚集聚类(HAC)算法作为出版物聚类的指导思想。在基准数据集AMiner[25]上,我们发现我们提出的解决方案比几种最先进的方法实现了显著更好的性能。在另一个公共数据集上的实验表明,这种规则符合自然规律,适用于整个作者姓名消歧任务,而不仅仅是AMiner数据集。实验结果还表明,虽然复杂模型确实有助于解决这个问题,但其中一些模型表现出不必要的复杂性,规则在这项任务中起着不可忽视的作用。

参考文献:

1… Backes, T.: The impact of name-matching and blocking on author disambiguation.In: Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM). pp. 803–812 ()

2… Caron, E., van Eck, N.J.: Large scale author name disambiguation using rule-based scoring and clustering. In: Proceedings of the International Conference on Science and Technology Indicators (STI). pp. 79–86 ()

17…Sculley, D., Snoek, J., Wiltschko, A., Rahimi, A.: Winner’s curse? on pace, progress, and empirical rigor. In: Workshop on 6th The International Conference on Learning Representations (ICLR) ()

22… Veloso, A., Ferreira, A.A., Gon¸ calves, M.A., Laender, A.H., Meira Jr, W.: Costeffective on demand associative author name disambiguation. Information Processing and Management: an International Journal 48(4), 680–697 ()

2.问题定义

给定一个作者姓名 α \alpha α和一组名为 α \alpha α的出版记录 P = { p 1 , p 2 , … , p l } \mathcal{P}=\left\{p_{1}, p_{2}, \ldots, p_{l}\right\} P={p1​,p2​,…,pl​} ,作者姓名消歧的问题是将出版记录 P \mathcal{P} P划分为不同的簇 { C 1 , C 2 , … , C K } \left\{C_{1}, C_{2}, \ldots, C_{K}\right\} {C1​,C2​,…,CK​},这样:

—— C k C_{k} Ck​中的所有记录都属于同一作者 α k \alpha_{k} αk​。

—— α k \alpha_{k} αk​在 P \mathcal{P} P中的所有记录均在 C k C_{k} Ck​中。

其中 { α 1 , … , α K } \left\{\alpha_{1}, \ldots, \alpha_{K}\right\} {α1​,…,αK​}是 K K K个姓名都叫 α \alpha α的不同的人。

3.方法论

在本节中,我们将详细讨论我们的解决方案的设计和实现,其设计理念基于这样的观察,即研究人员的兴趣通常不会太频繁地发生变化,特别是,他/她将在同一个机构中呆很长时间[3]。为此,我们可以推断出,研究人员通常有相对稳定的合著者集,并且在一定时期内,属于研究人员的出版物的主题应该在语义空间中接近。这也符合现实世界中人类社会活动的规律,即一个人的朋友和兴趣通常是相对固定的[6]。

考虑到这一点,我们首先将出版记录 P = { p 1 , p 2 , … , p l } \mathcal{P}=\left\{p_{1}, p_{2}, \ldots, p_{l}\right\} P={p1​,p2​,…,pl​} 分散到 l l l个集合中,并且每个原始集合中只有一个唯一的出版 p p p。接下来,提出了一种预合并策略(pre-merging strategy,PMS),根据合著者做出预合并决策。此外,简单神经网络(simple neural networks,SNN)被进一步用于通过出版物标题衡量两个聚类之间的语义相似性,因为标题自然地传达了出版物的主要观点。最后,我们引入了后阻塞策略(post-blocking strategy ,PBS)来确定最终聚类。

图1显示了我们提出的方法的具体过程。

3.1 预合并策略(pre-merging strategy,PMS)

此步骤旨在使用点对点和簇对簇规则初步合并初始出版集。为了方便起见,我们设置了一个恒等式约束 M ( i , j ) ∈ { 1 , 0 } M(i,j) ∈ {1,0} M(i,j)∈{1,0}表示 i i i和 j j j将(不)合并为一个集群,其中 i i i和 j j j指的是两个出版物或集群。

—— Point - to - Point(点对点):给定两个出版物 p i p_{i} pi​和 p j p_{j} pj​,如果 ∣ S n ( p i ) ∩ S n ( p j ) ∣ > λ 1 | S_{n}(p_{i}) ∩ S_{n}(p_{j}) |>λ_{1} ∣Sn​(pi​)∩Sn​(pj​)∣>λ1​,或 A α ( p i ) = A α ( p j ) & ∣ S n ( p i ) ∩ S n ( p j ) ∣ > 1 A_{α}(p_{i})=A_{α}(p_{j} ) \& | S_{n}(p_{i}) ∩ S_{n}(p_{j}) | > 1 Aα​(pi​)=Aα​(pj​)&∣Sn​(pi​)∩Sn​(pj​)∣>1,则 M ( p i , p j ) = 1 M(p_{i},p_{j})=1 M(pi​,pj​)=1。对于出版物 p i p_{i} pi​, S n ( p i ) S_{n}(p_{i}) Sn​(pi​)和 A α ( p i ) A_{α}(p_{i}) Aα​(pi​)分别表示作者姓名集合和当前作者姓名α的隶属关系。

——Cluster-to-Cluster(簇对簇):给定两个簇 C i C_{i} Ci​和 C j C_{j} Cj​,如果 O n ( C i , C j ) > λ 2 O_{n}(C_{i}, C_{j}) > λ_{2} On​(Ci​,Cj​)>λ2​,或者 O a ( C i , C j ) > λ 2 O_{a}(C_{i}, C_{j}) > λ_{2} Oa​(Ci​,Cj​)>λ2​,则 M ( C i , C j ) = 1 M(C_{i},C_{j})=1 M(Ci​,Cj​)=1,其中 O x ( C i , C j ) O_{x}(C_{i}, C_{j}) Ox​(Ci​,Cj​)表示两个簇在 x x x方向上的重叠比,并且 x ∈ { n , a } x \in\{n, a\} x∈{n,a}表示作者的姓名或隶属关系。我们将重叠比 O x ( C i , C j ) O_{x}(C_{i}, C_{j}) Ox​(Ci​,Cj​)定义为:

直观地说,点对点阶段可以理解为,当 p i p_{i} pi​和 p j p_{j} pj​的共同作者的数量超过阈值 λ 1 λ_1 λ1​时,我们认为两个出版物 p i p_{i} pi​、 p j p_{j} pj​属于同一簇,并且如果当前作者姓名 α α α在 p i p_{i} pi​和 p j p_{j} pj​中的隶属关系相同,则阈值放宽为1,这意味着除了 α α α之外,只需要一个共同作者来满足合并条件。为了便于说明,我们在这里以作者姓名 n n n为例(即 x = n x=n x=n)来描述簇对簇阶段的过程。为了计算重叠比 O n ( C i , C j ) O_{n}(C_{i}, C_{j}) On​(Ci​,Cj​)的分子,我们考虑出现在两个名称集 S n ( C i ) S_n(C_i) Sn​(Ci​)、 S n ( C j ) S_n(C_j) Sn​(Cj​)交集中的名称,并计算这两个簇中此类名称的总出现次数。此外,将 S n ( C i ) S_n(C_i) Sn​(Ci​)和 S n ( C j ) S_n(C_j) Sn​(Cj​)中所有作者姓名的总出现次数的最小值定义为分母。考虑到两个集群中作者名称的总数可能相差很大,这样的最小值选择策略可以有效避免小集群无法与大集群合并的问题。

3.2简单神经网络(Simple Neural Networks,SNN)

如上所述,通过两个出版物的主题相似性来确定它们是否属于同一作者是一个自然的想法,因为主题反映了研究者的兴趣和方向。为了有效地量化相似性,我们设计了一个基于卷积神经网络(CNN)的简单模型,将出版物投影到低维潜在公共空间中。

我们相信标题包含足够的信息来表达出版物的主题,因此我们首先将每个 p i ∈ P p_i∈ P pi​∈P转换为一个向量序列 [ w 1 , . . . , w n ] [w_1, ... ,w_n] [w1​,...,wn​],其中 w j w_j wj​是标题中第 j j j个单词的嵌入。请注意,我们使用CBOW[14]来预训练初始单词嵌入,随后将对其进行微调。然后,使用标准CNN为每个出版物生成标题向量,其中卷积运算使用 m m m个不同的滤波器(filter)执行,由最大池化层来计算最终表示 p i ∈ R m \mathbf{p}_{i} \in \mathbb{R}^{m} pi​∈Rm。接下来,我们遵循[25]的基本思想来训练这个表示模型。设 ( p i , p i + , p i − ) \left(p_{i}, p_{i_{+}}, p_{i_{-}}\right) (pi​,pi+​​,pi−​​)是一个三元组,其中 p i + p_{i_{+}} pi+​​和 p i p_i pi​是由同一个人创作的出版物,而 p i − p_{i_{-}} pi−​​ 是属于另一个人的随机选择的负面示例。因此,我们的训练数据 T T T由一组三元组组成,我们优化了基于边际的损失函数(margin-based loss function),如下所示:

对于包含 ∣ C i ∣ |C_i| ∣Ci​∣出版物的给定簇 C i C_i Ci​,簇嵌入定义为 c i = 1 ∣ C i ∣ ∑ j = 1 ∣ C i ∣ R ( p j ) \mathbf{c}_{i}=\frac{1}{\left|C_{i}\right|} \sum_{j=1}^{\left|C_{i}\right|} \mathcal{R}\left(p_{j}\right) ci​=∣Ci​∣1​∑j=1∣Ci​∣​R(pj​)。我们选择与 C i C_i Ci​相似度最高的聚类作为其目标合并聚类,表示为 C j C_j Cj​,这两个聚类之间的相似度通过 C i C_i Ci​和 C j C_j Cj​之间的余弦相似度来衡量。最后, C i C_i Ci​和 C j C_j Cj​将与一些后阻塞策略(post-blocking strategies)合并,我们将在下面的段落中讨论它们。

3.3后阻塞策略(Post-Blocking Strategy)

基于学习模型 R ( ⋅ ) \mathcal{R}(·) R(⋅)和聚类嵌入,提出该步骤来确定最终分区。为了避免仅测量簇内语义相似性导致的不太好的合并,我们引入了后阻塞策略来考虑两个簇的统计特征。在我们的设计中,在 C i C_i Ci​中,具有最多合著者的出版物被选为锚出版物 p i ∗ p_{i}^{*} pi∗​, C j C_j Cj​的锚点 p j ∗ p_{j}^{*} pj∗​可以类似地选择。然后,锚对锚规则部署如下:

锚对锚规则可以解释为,如果除了当前作者姓名 α α α及其从属关系(隶属关系,affiliation)之外, p i ∗ p_{i}^{*} pi∗​和 p j ∗ p_{j}^{*} pj∗​的名称集或从属关系集之间没有交集,我们认为 C i C_i Ci​和 C j C_j Cj​不属于同一作者。为了直观地说明这个过程,我们在图1中描述了一个示例(第三步)。尽管{Pub-1、Pub-3}和{Pub-4}之间的相似性最高,但由于违反了锚对锚规则,合并操作仍然被阻止。

4.实验

4.1 数据集

我们在[25]中介绍的最近广泛使用的公共基准数据集AMiner上进行了实验,该数据集是从标记良好的学术数据库中采样的。数据集的标记过程基于作者主页上的出版物列表以及网络数据库(例如Scopus、ACM数字图书馆)中的从属关系和电子邮件。训练集包含500个作者姓名的出版物,测试集包含100个作者姓名。对于每个出版物,有以下五个字段:标题、关键字、地点、作者姓名和相应的从属关系。在本文中,我们只使用标题、作者姓名和从属关系来开发解决方案。与现有的消除名称歧义的基准相比,AMiner明显更大(就文档数量而言),也更具挑战性(因为每个候选集都包含更多的集群)。

数据集网址:/misc/na-data-kdd18.zip

数据集样例:

4.2 实验设置

根据流行的选择,我们使用五重交叉验证来调整我们的模型。对于预合并策略(PMS),我们通过实验将 λ 1 λ_{1} λ1​设置为2, λ 2 λ_{2} λ2​设置为0.5。除此之外,使用k=100的CBOW模型[14]来学习AMiner训练集上的初始单词表示。使用随机梯度下降(SGD)算法训练简单神经网络(SNN)模型,初始学习率为0.1,权重衰减为0.9,批量大小为50,余量(margin)为0.3。在卷积层,滤波器图的数量为100,窗口大小为3。在输入层之后使用p=0.3的Dropout。

4.3 对比方法

根据Zhang等人[25],我们将我们的模型与5种不同的方法进行比较:

——Basic Rules [25]:当两个出版物的共同作者、从属关系或地点严格相等时,它通过连接两个出版物来构建链接图。结果是通过简单地将图划分为连接的组件来获得的。

——Fan et al. [3]:对于每个名称,它通过将具有相同名称的所有合著者折叠到一个节点来构造一个图。最终结果由亲和传播算法(AP)生成,并基于有效路径的数量测量两个节点之间的距离。

——Louppe et al. [13]:它基于精心设计的相似性特征训练成对距离函数,并使用半监督分层聚集聚类(HAC)算法来确定聚类。

——Zhang and Al Hasan [24]:它根据合著者和文档的相似性为每个作者的名字构建图。每个名称的嵌入都会被学习,最终结果也会通过HAC获得。

——Zhang et al. [25]:它通过利用全局监督和本地上下文引入了一个表示学习框架,并使用HAC作为聚类方法,这是数据集4上的最新方法。此外,它部署了递归神经网络来估计聚类数量。数据集4:/neozhangthe1/disambiguation/

我们的方法由PNP表示。为了分析每个组成部分的贡献,我们在第3节中描述的三个阶段中的每个阶段都给出了结果。

4.4 结果

表1显示了AMiner数据集上不同方法的性能。

根据之前的设置[25],我们使用成对精度、召回和F1score来评估所有方法。同时,根据所有测试名称计算每个度量的宏平均分数。

5 总结

在本文中,我们考虑了来自真实世界观察的启发式规则,并为作者姓名消歧问题提出了一个强有力的基线。所提出的模型包含预合并策略、简单的神经网络和后阻塞策略,它们不需要任何关于簇大小的额外知识。实验结果验证了我们的方法优于最先进的方法,并证明了所提出的模型是高效的,规则可以扩展到其他数据集,其中许多结论与一些社会学现象一致。除此之外,我们还进一步探讨了消歧精度的上限,并分析了可能的原因,这将作为我们未来的工作。总之,我们向所有数据挖掘研究人员提供了一个反思点,就像之前的一些工作一样[15]:最重要的是考虑不涉及复杂架构的基线,简单的方法可能会导致意想不到的性能。

部分参考文献

1.Backes, T.: The impact of name-matching and blocking on author disambiguation.In: Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM). pp. 803–812 ()

3.Fan, X., Wang, J., Pu, X., Zhou, L., Lv, B.: On graph-based name disambiguation.Journal of Data and Information Quality 2(2) ()

13. Louppe, G., Al-Natsheh, H.T., Susik, M., Maguire, E.J.: Ethnicity sensitive author disambiguation using semi-supervised learning. In: Proceedings of the 7th International Conference on Knowledge Engineering and Semantic Web (KESW). pp.272–287 ()

14. Mohammed, S., Shi, P., Lin, J.: Strong baselines for simple question answering over knowledge graphs with and without neural networks. In: Proceedings of the 16th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). pp. 291–296 ()

15. Zhang, B., Al Hasan, M.: Name disambiguation in anonymized graphs using network embedding. In: Proceedings of the 26th ACM International Conference on Information and Knowledge Management (CIKM). pp. 1239–1248 ()

16. Zhang, Y., Zhang, F., Yao, P., Tang, J.: Name disambiguation in aminer: Clustering, maintenance, and human in the loop. In: Proceedings of the 24th ACM International Conference on Knowledge Discovery & Data Mining (KDD). pp.1002–1011 ()

注意:博客中的我们指的是这篇论文的原作者

这里是这篇论文引用格式:

Zhang, Z., Yu, B., Liu, T., Wang, D. (). Strong Baselines for Author Name Disambiguation with and Without Neural Networks. In: Lauw, H., Wong, RW., Ntoulas, A., Lim, EP., Ng, SK., Pan, S. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD . Lecture Notes in Computer Science(), vol 12084. Springer, Cham. /10.1007/978-3-030-47426-3_29

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。