1200字范文 > 《知识图谱概念与技术》读书笔记：概念图谱中的isA关系

《知识图谱概念与技术》读书笔记：概念图谱中的isA关系

时间：2022-10-03 13:08:38

读完可以回答以下问题：

1.概念图谱构建的要素是什么？如何构建优质的概念图谱？
2.概念图谱中isA关系的抽取方法有哪些？实际应用较多的方法有哪些？实际应用时抽取过程是怎样的？
3.中文概念图谱的构建过程是怎样的？典型的中文概念图谱实例介绍

1.概念图谱构建的要素是什么？如何构建优质的概念图谱？

知识图谱的规模和质量是构建知识图谱的重要因素。概念图谱作为一种重要的知识图谱也是如此。

如何构建大规模且高质量的概念图谱呢？

从大规模的文本中自动抽取isA关系，进而构建大规模概念图谱。如何提高质量是大规模概念图谱的核心问题，目前无法给出一个统一的答案。

2. 概念图谱中isA关系的抽取方法有哪些？实际应用较多的方法有哪些？实际应用时抽取过程是怎样的？

1）isA关系抽取的方法

2）实际应用较多的方法为

基于模式的方法和基于在线百科的方法

3）基于在线百科的方法抽取过程

基于在线百科的方法抽取准确率较高，但是在线百科的标签规模有限很难形成大规模的概念图谱。

以YAGO为例基于模式方法构建概念图谱：

第一步：概念标签识别

数据源是维基百科数据，其中标签分为：概念型标签、主题型标签、属性型标签以及管理型标签

概念型标签：描述实体所属的类型（多用，核心标签）例如：American male film actors 主题型标签：描述实体所述的主题（多用）例如：Chemistry 属性型标签：描述实体的相关属性（少用）例如：1979 births 管理型标签：用于管理维基百科词条（少用）例如：Articles with unsourced statements

识别方法：浅层语言分析

标签短语的核心词

复数被识别为概念标签例如：American male filmactors

单数被识别为主题标签例如：Chemistry

属性型标签和管理型标签识别使用：人工或基于规则的方式

第二步：概念层级体系构建

4）基于模式的方法抽取过程

最常见的isA关系的语法模式是Hearst模式。

缺陷：

1.模式前后的噪声词会导致抽取错误。例如：animals other than dogs such as cats => cats is dogs

2.分词错误会导致错误。例如：algorithms including SVM,LR and RF =》LR and RF是一个实体还是两个实体

缺陷解决：