1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 知识图谱属性融合_知识图谱融合_本体概念层的融合方法与技术

知识图谱属性融合_知识图谱融合_本体概念层的融合方法与技术

时间:2019-07-06 05:05:08

相关推荐

知识图谱属性融合_知识图谱融合_本体概念层的融合方法与技术

5.3.1 本体映射和本体集成

本体映射:寻找本体间的映射规则

本体集成:直接将多个本体合并为一个大本体

基于单本体的集成:

决定本体集成的方式:判断消除异构的单本体是应该从头建立,还是应该利用现有的本体来集成

识别本体的模块:明确集成后的本体应该包含那些模块

识别每个模块中应该被表示的知识:概念,属性,关系和公理

识别候选本体:

执行集成过程

基于全局本体-局部本体的集成:

抽取异构本体之间的共同知识,建立全局本体;

各个系统拥有自己的本体,成为局部本体;

建立全局本体和局部本体之间的映射

5.3.2 本体映射分类

1. 映射的对象角度:

概念映射

关系映射

2.映射的功能角度:

概念间的映射桥:

等价(Equal)

同形异议(Different)

上义(Is_a):概念与属性的关系

下义(Include):概念与属性的关系

重叠(Overlap):概念之间的相似性

部分(Part_of)

对立(Opposed)

连接(Connect)

关系间的映射桥

等价(Equal)

包含(Subsume)

逆(Inverse):关系的互逆

3.映射的复杂程度角度

简单映射

复杂映射:

概念映射+复杂概念

关系映射+原子关系/复合关系

5.3.3 本体映射方法和工具

映射过程:

O1

--->导入本体--->发现映射--->表示映射

O2

(1)导入待映射的本体

(2)发现映射:

基于术语:自然语言处理技术,比较映射对象之间的相似度

基于结构:发现结构的相似

基于实例:利用机器学习等技术寻找本体间的映射

综合方法

(3)表示映射

1.基于术语和结构的本体映射

1.1 技术术语

1.1.1 基于术语的本体映射

基于字符串

(1)规范化

(2)相似度量方法:

汉明距离:计算字符出现位置的不同

子串相似度

编辑距离:修改其中一个使之与另一个相同所需的最小操作代价

路径距离:考虑父概念

基于语言:依靠自然语言处理技术寻找概念或关系间的相似度

(1)内部方法:使用语言的内部属性,如形态和语法

(2)外部方法:词典

1.1.2 基于结构的本体映射

内部结构:利用属性或关系的定义域,基数,传递性或对称性计算相似度

外部结构:

直接超类或所有超类相似

兄弟相似

直接子类或所有子类相似

所有或大部分后继相似

所有或大部分叶子相似

从根节点到当前叶子节点路径上的实体相似

1.2 工具和方法

1.2.1 AnchorPROMPT

工具集:

iPROMAT :交互式本体集合工具

AnchorPROMAT:寻找本体间相似映射

PROMATDiff:比较两个本体结构上的不同

PROMATFactor:从现有本体创建一个新本体,保证子本体是良构的

思想:在术语比较的基础上,进一步分析本体图的结构相似性

总结:发现原子概念间的等价映射和少量原子关系的等价映射,不适用于复杂概念或者复杂关系

算法:根据提供的初始术语对集合,进一步分析异构本体的结构,产生新的语义相关术语对

(a)等价组:将等价组看成是路径上的单个节点

(b)相似度分数

评估:

(a)等价组的大小:最大尺寸为2

(b)等价组成员的相似度分数:为等价组成员打分不同

(c)锚的数目和路径的最大长度:最大长度路径为2

讨论

(a)较少负面结果的影响:设定相似度阈值

(b) 执行本体映射

(c)局限性:结构差异很大,效果不好

1.2.2 iPROMPT

利用--术语相关性--寻找不同本体间--概念或概念的相关属性映射

以术语相似为基础,执行合并算法完成本体合并的任务。在合并时要与用户进行交互。

1.2.3 MAFRA

本体映射--映射分为概念桥和属性桥--异构本体间映射

处理语义Web上分布式本体映射的一个框架

语义桥:提供异构本体间数据的转化机制,利用映射提供基于分布式本体的服务

水平结构:

正规化:本体必须为统一形式

相似度:利用多种基本的术语和结构相似度获取本体成分之间的关系

语义桥:利用本体成分间的相似度,利用语义桥来表示本体映射。包括概念桥(实例转换)和属性桥(属性转化)

执行:在获得本体间交互的请求时,利用语义桥中的映射规则完成实例转换或属性转换

后处理:映射执行产生的转化结果需要进一步处理

垂直结构:

演化:本体发生变化时,跟新语义桥

协同创建:某些本体成分可能存在多个不同的映射建议,通过多个用户协商,选择一致的映射方案。

领域限制和背景知识:领域限制避免生成不必要的映射;背景知识提高映射质量。

用户界面交互:给出图形化的操作界面

1.2.4 ONION

原子概念间的等价关系--本体间的简单映射

半自动生成算法--本体互操作的映射规则--映射结果提供给专家--专家设定阈值或者直接选择接受

图形式--RDF--{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}

窗口算法“一个窗口包含本体的一个连通子图

映射发现算法:

非迭代算法:利用集中语言匹配器来发现本体间关系,将几个匹配器发现的相似度综合,将结果提供给专家确认。

迭代算法:寻找子图间结构上的同态以得到相似的概念,每一次迭代都利用上一次生成的映射结果。

1.2.5 Wang Peng和Xu Baowen方法

本体概念相似度的度量

概念间的语义关系:概念名,概念属性和概念在上下文得到

同义词集相似度:同义词集是语义相同或者相近词的分组。将概念的名称最为相似度首要考虑因素

特征相似度:概念属性,概念附带的关系,属性和关系取值的限制,是从概念的内部组成比较他们的相似度

上下文相似度:语义邻居结构的相似度

1.2.6 S-Match

输入--两个本体的图结构--输出--图节点的语义关系

语义关系:等价,泛化,特化,不匹配,相交

基于本体抽象层的概念继承树结构,不考虑本体的实例

输入两个带标签的本体树T1和T2:

对所有在T1和T2中的标签,计算标签的含义。

对所有T1和T2中的节点,计算节点上概念的含义

对所有T1和T2中的标签对,计算标签间的关系。

对所有T1和T2中的节点对,计算节点上的概念间的关系。

1.2.7 Cupid

模式匹配算法:综合使用语言和结构的匹配技术。

语言匹配:计算模式元素的语言相似度,基于词法正规化,分类,字符串比较技术和查词典等方法

结构匹配:计算结构相似度,度量元素出现的上下文

映射生成:计算带权重相似度和生成最后的映射,这些映射的权重相似度应该高于预先设定的阈值。

1.2.8 其他

2.基于实例的本体映射

(1)技术综述

概念间存在共享实例:

测试实例集合得交集

对称差分:对称差分值越大,概念间得差异越大

实例集合得概率解释

概念间没有共享实例:

连接聚合:单连接,全连接,平均连接,Haussdorf距离(测试两个集合之间的最大距离)

机器学习:形式化概念分析,贝叶斯学习和神经网络

(2)方法和工具

2.1 GLUE

应用机器学习技术,用半自动的方法发现异构本体之间的映射

概念分类是本体间最重要的部分,寻找分类本体概念之间1:1映射

主要思想:本体O1中的概念A和本体O2中的概念B

(1)相似度定义:基于概念的联合概率分布判断概念之间的相似度.

四种联合概率分布P(A,B),P(A`,B),P(A,B`),P(A`,B`)

Jaccard系数:A与B不相关时,该相似度取值为0,当A和B是等价概念时,相似度为1

最特化双亲:如果B包含A,则B越特化,P(A|B)越大,MSP(A,B)值越大。

(2)计算相似度:采用机器学习技术,利用A的实例训练一个匹配器,利用匹配器判断B的实例

(3)多策略学习:利用多个学习器进行学习,并通过一个元学习器综合各学习器的结果

内容学习器:

利用实例文本内容中的词频来预测分类。

内容包括:属性,属性集合和属性值组成。

贝叶斯学习技术

名字学习器:实例的全名。从根节点到实例所在位置的路径上所有概念名的连接。

元学习器:

(4)利用领域约束:

放松标记:节点邻居对其标签的影响用公式量化。

根据两本体的特征和领域知识寻找本体节点间的对应关系。

约束:

领域独立约束:相关节点间交互的通用知识。

邻居约束:如果两节点的邻居匹配,则两节点也匹配

并集约束:如果节点X的全部孩子匹配Y,那么节点X也匹配Y.

领域依赖约束:特定节点间交互的用户知识。

包含:如果节点Y不是节点X的后继,并且Y匹配PROFESSOR,则X不可能匹配PROFESSOR

频率:至多只有一个节点和DEPARTMENT-CHAER匹配

临近约束:如果X的邻居节点匹配ASSOCIATE-PROFESSOR,则X匹配ASSOCIATE-PROFESSOR机会增加

(5)处理复杂映射CGLUE:1:n, 概念间的复杂映射。

体系结构:

2.2 概念近似的方法

--原查询--重写为近似得查询

(1)思想:通过概念近似重写查询表达式中的概念,获得较高的查全率和查准率。

用户本体O1(查询得提出者) 系统本体O2(查询的回答者)

Q --重写-- R(近似)全部概念集合为T

(2)Stuckenschmidt H的概念近似

概念的最小上界----概念在另一本体中的直接父类(超类)----概念的上近似

概念的最大下界----概念在另一本体中的直接子类(子类)----概念的下近似

问题:概念远小于超类,上近似过大,最坏找不到概念的超类,上近似的查询结果返回全集

概念远大于子类,下近似过小,最坏找不到概念的子类,下近似的查询结果返回空集

方法:合取与取 析(A∩B)⊆C⊆(A∪B)

(3)TzitzikasY的概念近似

--实例1--另一个本体中的最小查询1

原查询结果> > >> 最小查询组合

--实例2--另一个本体中的最小查询2

优点:不会造成映射结果的丢失

缺点:查询效率低:需要遍历所以实例计算概念近似。得到的近似查询冗长。

完全基于训练集合中学习概念间的包含关系,而没有考虑本体间的语义关系。

近似不能传递,因为是根据不同的训练集得到的。

(4)基于多元界的概念近似

问题:概念的上下界只包含独立的概念,无法得到概念的最佳近似

得到概念的最佳近似,但近似表示的形式多余,没有给出有效寻找映射的算法。

优势:将概念的最小上界和最大下界扩展为多元界

概念的析取----概念的多元最小上界----概念的最小上近似----最简多元最小上界

概念的合取----概念的多元最大下界----概念的最大下近似----最简多元最大下界

(5)FCA

不同本体--共享实例--解决本体映射--形式化理论基础

(6)IF-Map

局部本体(有实例)--参考本体(没有实例)--映射(没有实例)--判断两局部本体之间的等价关系

3.综合方法

3.1 QQM

同时考虑映射结果的质量和发现映射的时间复杂度

只考虑异构本体间1:1等价映射,映射对象包括概念,关系和实例。

步骤:

特征工程:将初始的输入文本转化为相似度计算使用的统一格式(RDF),分析映射对象的特征。

特征包括:标识(映射对象的专用字符串)

RDF(S)原语,如属性或子类关系

推导出的特征:由RDFS原语推到出来的特征,如最特化的类

OWL原语

领域中特定的特征:如某领域中概念Person的实例都有ID属性,可用属性值代表实例

搜索步骤的选择:启发式方法降低候选映射对象的数目,只选择那些必要的映射对象

相似度计算:

多种度量方法:概念,关系和实例的相似度计算公式,

忽略时间复杂度高的度量公式

相似度累加:强调可靠的相似度,降低不可靠的相似度

解释:利用阈值或放松标签,考虑本体结构和一些相似度准则

迭代:迭代在没有生成新映射时终止;

可基于贪婪策略从当前相似度最高的对象开始执行。

实验评估与结果

3.2 OLA

覆盖本体所有可能的特征(术语,结构,外延)

考虑本体的结构

明确所有的循环关系,寻找最佳映射

算法:

将OWL本体编码为图,图中的边为概念之间的关系

图中节点相似度:根据类和属性将节点分类

考虑分类后节点中的所有特征

实体之间的相似度被赋予权重并线性累加

3.3 KRAFT

发现1:1的本体映射体系结构

概念映射:源本体和目标本体--概念--之间的映射

属性映射:源本体与目标本体--属性值和属性名--之间的映射

关系映射:源本体与目标本体--关系--之间的映射

复合映射:复合源本体表达式和复合目标本体表达式之间的映射

3.4 OntoMap

一个知识表示的形式化,推理和WEB接口。

3.5 OBSERVER

解决分布式数据库的异构问题

使用组件本体和之间明确的映射关系解决 数据库间的异构

3.6 InfoSleuth

基于主体的系统,能够支持通过小本体组成复杂本体。

3.7 基于虚拟文档的本体匹配

利用本体中的语义信息,文本信息和结构信息进行本体匹配

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。