1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 T

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 T

时间:2021-05-09 12:23:04

相关推荐

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 T

文章目录

一、 关联规则挖掘简介二、 数据集 与 事物 ( Transaction ) 概念三、项 ( Item ) 概念四、项集 ( Item Set ) 概念五、频繁项集六、数据集、事物、项、项集合、项集 示例

一、 关联规则挖掘简介

Apriori 算法 是 关联规则 挖掘算法 ,

关联规则 反映了 对象之间 相互依赖关系 ,

可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;

关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;

如 :购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;

关联规则挖掘步骤 :

① 步骤一 :找出 支持度 ≥\geq≥ 最小支持度阈值 的 频繁项集 ;

② 步骤二 :根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;

二、 数据集 与 事物 ( Transaction ) 概念

数据集 与 事物 ( Transaction ) 概念 :

数据挖掘 数据集 由 事物 构成 ;

数据集 记做 DDD ;

使用事物表示 数据集 , 表示为 D={t1,t2,⋯,tn}D = \{ t_1 , t_2 , \cdots , t_n \}D={t1​,t2​,⋯,tn​} ,

其中 tk,(k=1,2,⋯,n)t_k , \ ( k = 1, 2, \cdots, n )tk​,(k=1,2,⋯,n) 称为事物 ;

每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;

三、项 ( Item ) 概念

项 ( Item ) 概念 :

每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;

项 记做 iii ;

表示为 tk={i1,i2,⋯,in}t_k = \{ i_1 , i_2 , \cdots , i_n \}tk​={i1​,i2​,⋯,in​} ;

数据集 DDD 是所有 项 iii 的集合 是 III 集合 ;

四、项集 ( Item Set ) 概念

项集 ( Item Set ) 概念 :

III 中的 任意子集 XXX , 称为 数据集 DDD 的 项集 ( Item Set ) ;

如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 kkk ,

则称该 项集 ( Item Set ) 为 kkk 项集 ( k-itemset ) ;

五、频繁项集

频繁项集 :频繁项集指的是出现次数较多的项集 ;

六、数据集、事物、项、项集合、项集 示例

整个 数据集 DDD , 由 555 个事物 构成 ;

数据集 :D={t1,t2,t3,t4,t5}D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t1​,t2​,t3​,t4​,t5​}

事物 111 :t1={奶粉,莴苣}t_1 = \{ 奶粉 , 莴苣 \}t1​={奶粉,莴苣}

事物 222 :t2={莴苣,尿布,啤酒,甜菜}t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t2​={莴苣,尿布,啤酒,甜菜}

事物 333 :t3={奶粉,尿布,啤酒,橙汁}t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t3​={奶粉,尿布,啤酒,橙汁}

事物 444 :t4={奶粉,莴苣,尿布,啤酒}t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}t4​={奶粉,莴苣,尿布,啤酒}

事物 555 :t5={奶粉,莴苣,尿布,橙汁}t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}t5​={奶粉,莴苣,尿布,橙汁}

上述 事物 集合中的元素 iii 都称为项 , 奶粉,莴苣,尿布,啤酒,甜菜,橙汁奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;

I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}

项集 :任意不相同的项组成的集合就称为项集 , 上述 666 个元素的集合有 262^626 个项集 ; 参考集合幂集个数

{奶粉}\{ 奶粉 \}{奶粉} 是 111 项集 ;

{尿布,啤酒}\{ 尿布 , 啤酒 \}{尿布,啤酒} 是 222 项集 ;

{莴苣,尿布,啤酒}\{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 是 333 项集 ;

{奶粉,莴苣,尿布,啤酒}\{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}{奶粉,莴苣,尿布,啤酒} 是 444 项集 ;

{奶粉,莴苣,尿布,啤酒,甜菜}\{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,莴苣,尿布,啤酒,甜菜} 是 555 项集 ;

{奶粉,莴苣,尿布,啤酒,甜菜,橙汁}\{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 666 项集 ;

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。