1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 - 相似度矩阵 ( 聚类数据类型 |

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 - 相似度矩阵 ( 聚类数据类型 |

时间:2023-11-07 15:50:20

相关推荐

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 - 相似度矩阵 ( 聚类数据类型 |

文章目录

I . 聚类数据类型II . 区间标度型变量III . 区间标度型变量 标准化IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例VIII . 相似度计算 ( 1 ) 明科斯基距离IX . 相似度计算 ( 2 ) 曼哈顿距离X . 相似度计算 ( 3 ) 欧几里得距离

I . 聚类数据类型

聚类数据类型 :

① 区间标度变量 :由 数值 和 单位组成 , 如 , 168 c m cm cm , 30 o C ^{o}C oC , 等值 ;

② 二元变量 :

③ 标称型变量 :

④ 序数型变量 :

⑤ 比例标度型变量 :

⑥ 混合型变量 :

II . 区间标度型变量

1 . 区间标度型变量 :

① 举例 :重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压 等由 数值 和 刻度单位 组成的变量 ;

② 度量单位影响 :区间标度型变量 采用的 度量单位 , 直接影响聚类的分组结果 , 如身高使用 米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;

③ 数据标准化 :为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将 数值 + 单位 组成的标度型变量 , 规范化为单纯由 数值 表示的值 ;

III . 区间标度型变量 标准化

1 . 数据标准化 :对于 区间标度型变量 f f f , 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;

2 . 数据标准化过程 :

① 计算所有样本 f f f 属性的平均值 ;

② 计算平均绝对偏差值 ;

③ 计算标准化度量值 ;

IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值

计算所有数据的平均值 :假设数据集有 n n n 个样本 , 将样本 x x x 的 f f f 属性值变量相加除以 n n n 取平均值 ;

m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) m_f = \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} ) mf​=n1​(x1f​+x2f​+⋯+xnf​)

n n n 表示 数据集样本的个数 ;

m f m_f mf​ 表示 n n n 个样的 f f f 属性的平均值 ;

x i x_i xi​ 表示第 i i i 个样本 ;

x n f x_{nf} xnf​ 表示第 n n n 个样本的 f f f 属性的值 , x 1 f x_{1f} x1f​ 表示第 1 1 1 个样本的 f f f 属性 , x 2 f x_{2f} x2f​ 表示第 2 2 2 个样本的 f f f 属性 ;

V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差

1 . 计算平均绝对偏差 :每个样本的 f f f 属性减去 所有样本的 f f f 属性平均值 , 然后这个差取绝对值 , 将n n n 个样本的 f f f 属性 与平均值的差绝对值相加, 然后再取其平均值, 即平均绝对偏差;

① 样本偏差 :计算单个样本的 f f f 属性 与 所有样本的 f f f 平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;

② 样本绝对偏差 :将上面计算的 符号 ( 正负号 ) 位置的样本偏差取绝对值 ;

③ 平均绝对偏差 :将 n n n 个样本的绝对偏差相加 , 处于 n n n 取平均值 , 即可得到平均绝对偏差 ;

2 . 平均绝对偏差公式如下 :

S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) S_f = \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | ) Sf​=n1​(∣x1​f−mf​∣+∣x2​f−mf​∣+⋯+∣xn​f−mf​∣)

S f S_f Sf​ 表示 平均绝对偏差 ;

∣ x 1 f − m f ∣ | x_1f - m_f | ∣x1​f−mf​∣ 表示第 1 1 1 个样本的 f f f 属性值 , 减去平均值后的绝对值 ;

VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值

1 . 计算标准化度量值 :进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;

2 . Z-Score 变换公式如下 :根据每个样本的 f f f 属性值 , 样本的 f f f 属性平均值 , 平均绝对偏差 S f S_f Sf​ , 计算出每个样本的 f f f 属性标准化后的值 ;

Z i f = x i f − m f S f Z_{if} = \frac{x_{if} - m_f}{S_f} Zif​=Sf​xif​−mf​​

Z i f Z_{if} Zif​ 表示 数据样本 标准化 后的 属性值 , 该属性值只有数值 , 没有单位 ;

x i f x_{if} xif​ 表示第 i i i 个样本的 f f f 属性值 ;

m f m_f mf​ 表示 n n n 个样的 f f f 属性的平均值 ;

S f S_f Sf​ 表示 平均绝对偏差 ;

3 . 样本数据属性 标准化 本质 :获取 数据集中的单个样本属性平均属性偏差, 相对于平均绝对偏差比值; 最终的本质是偏差的比值;根据偏差 确定 样本的相似度;

VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例

已知 : 3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化 ;

1 . 计算平均值 :

m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) = 145 + 180 + 165 3 ≈ 163.333 \begin{array}{lcl} m_f &=& \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )\\\\ &=& \dfrac{145 + 180 + 165}{3}\\\\ &\approx& 163.333 \end{array} mf​​==≈​n1​(x1f​+x2f​+⋯+xnf​)3145+180+165​163.333​

平均值计算结果是 163.333 163.333 163.333 ;

2 . 计算平均绝对偏差 :

S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) = ∣ 145 − 163.333 ∣ + ∣ 180 − 163.333 ∣ + ∣ 165 − 163.333 ∣ 3 = 18.333 + 16.667 ‬ + 1.667 3 = 36.667 ‬ 3 ≈ 12.222 \begin{array}{lcl} S_f &=& \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )\\\\ &=&\dfrac{|145 - 163.333| + |180 - 163.333| + |165 - 163.333| }{3}\\\\ &=&\dfrac{18.333 + 16.667‬ + 1.667 }{3}\\\\ &=&\dfrac{36.667‬ }{3}\\\\ &\approx& 12.222 \end{array} Sf​​====≈​n1​(∣x1​f−mf​∣+∣x2​f−mf​∣+⋯+∣xn​f−mf​∣)3∣145−163.333∣+∣180−163.333∣+∣165−163.333∣​318.333+16.667‬+1.667​336.667‬​12.222​

平均绝对偏差值 计算结果是 12.222 12.222 12.222 ;

3 . Z-Score 标准化 :

① 样本 1 1 1 身高 145 c m cm cm 标准化 :标准化后的值为 − 1.5 -1.5 −1.5 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 145 − 163.333 12.222 = − 18.333 ‬ 12.222 = − 1.5 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{145 - 163.333}{12.222}\\\\ &=&\dfrac{-18.333‬}{12.222}\\\\ &=& -1.5 \end{array} Zif​​====​Sf​xif​−mf​​12.222145−163.333​12.222−18.333‬​−1.5​

② 样本 2 2 2 身高 180 c m cm cm 标准化 :标准化后的值为 1.364 1.364 1.364 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 180 − 163.333 12.222 = 16.667 ‬ 12.222 ≈ 1.364 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{180 - 163.333}{12.222}\\\\ &=&\dfrac{16.667‬}{12.222}\\\\ &\approx& 1.364 \end{array} Zif​​===≈​Sf​xif​−mf​​12.222180−163.333​12.22216.667‬​1.364​

③ 样本 3 3 3 身高 165 c m cm cm 标准化 :标准化后的值为 0.136 0.136 0.136 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 165 − 163.333 12.222 = 1.667 ‬ 12.222 ≈ 0.136 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{165 - 163.333}{12.222}\\\\ &=&\dfrac{1.667‬}{12.222}\\\\ &\approx& 0.136 \end{array} Zif​​===≈​Sf​xif​−mf​​12.222165−163.333​12.2221.667‬​0.136​

4 . 标准化结果 :3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化后的值分别是 : − 1.5 , 1.364 , 0.136 -1.5 , 1.364 , 0.136 −1.5,1.364,0.136

VIII . 相似度计算 ( 1 ) 明科斯基距离

1 . 对象相似度 ( 相异度 ) 计算 :根据两个 样本对象 之间的 距离计算 , 通常使用 明科斯基 距离 公式进行计算 ;

2 . 明科斯基 距离 计算公式 :

d ( i , j ) = ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q q d(i, j) = \sqrt [q] { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } d(i,j)=q∣xi1​−xj1​∣q+∣xi2​−xj2​∣q+⋯+∣xip​−xjp​∣q ​

d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;

q q q 是一个系数 , 取值 { 1 , 2 , ⋯ } \{1 , 2 , \cdots\} {1,2,⋯} ;该取值很重要 , 不同取值衍生出不同的公式 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;

x i p − x j p x_{ip} - x_{jp} xip​−xjp​ 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1​−xj1​ 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2​−xj2​ 表示两个样本 第 2 2 2 个属性值 的差值 ;

∣ x i p − x j p ∣ |x_{ip} - x_{jp}| ∣xip​−xjp​∣ 表示两个样本 第 p p p 个属性值 的差值 的绝对值 , ∣ x i 1 − x j 1 ∣ |x_{i1} - x_{j1}| ∣xi1​−xj1​∣ 表示两个样本 第 1 1 1 个属性值 的差值 的绝对值 , ∣ x i 2 − x j 2 ∣ |x_{i2} - x_{j2}| ∣xi2​−xj2​∣ 表示两个样本 第 2 2 2 个属性值 的差值 的绝对值 ;

最外层计算 ( q q q 次方根 ) : 最终计算需要求 ( ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q ) ( { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } ) (∣xi1​−xj1​∣q+∣xi2​−xj2​∣q+⋯+∣xip​−xjp​∣q) 的 q q q 次方根 ;

IX . 相似度计算 ( 2 ) 曼哈顿距离

1 . 曼哈顿距离 :明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 1 q = 1 q=1 时 , 该距离又称为曼哈顿距离;

2 . 曼哈顿距离 公式如下 :

d ( i , j ) = ∣ x i 1 − x j 1 ∣ + ∣ x i 2 − x j 2 ∣ + ⋯ + ∣ x i p − x j p ∣ d(i, j) = | x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} | d(i,j)=∣xi1​−xj1​∣+∣xi2​−xj2​∣+⋯+∣xip​−xjp​∣

d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 曼哈顿距离 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;

x i p − x j p x_{ip} - x_{jp} xip​−xjp​ 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1​−xj1​ 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2​−xj2​ 表示两个样本 第 2 2 2 个属性值 的差值 ;

3 . 曼哈顿距离 与 明科斯基距离 :

① 去掉了外层 q q q 次方跟计算 :q = 1 q = 1 q=1 时 , 外层开 1 1 1 次方根 , 直接将 q q q 次方根计算的根号去掉即可 ;

② 去掉了样本差的指数计算 :计算 ∣ x i 1 − x j 1 ∣ | x_{i1} - x_{j1} | ∣xi1​−xj1​∣ 值的 1 1 1 次方 , 也可以取消 q q q 次方的指数计算 ;

4 . 曼哈顿距离图示 :曼哈顿的街道都是横平竖直的 , 从 A A A 点到 B B B 点 , 一般就是其 x x x 轴坐标差 加上其 y y y 轴坐标差 , 即 x + y x + y x+y ;

X . 相似度计算 ( 3 ) 欧几里得距离

1 . 欧几里得距离 :明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 2 q = 2 q=2 时 , 该距离又称为欧几里得距离;

2 . 欧几里得 距离 公式如下 :

d ( i , j ) = ∣ x i 1 − x j 1 ∣ 2 + ∣ x i 2 − x j 2 ∣ 2 + ⋯ + ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { | x_{i1} - x_{j1} | ^2 + | x_{i2} - x_{j2} | ^2 + \cdots + | x_{ip} - x_{jp} | ^2 } d(i,j)=∣xi1​−xj1​∣2+∣xi2​−xj2​∣2+⋯+∣xip​−xjp​∣2 ​

d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;

x i p − x j p x_{ip} - x_{jp} xip​−xjp​ 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1​−xj1​ 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2​−xj2​ 表示两个样本 第 2 2 2 个属性值 的差值 ;

3 . 欧几里得距离图示 :从 A A A 点到 B B B 点的实际直线距离 , 即 z z z 距离 ;

欧氏空间 :可以计算欧几里得距离的空间 , 叫做欧氏空间 ;

4 . 欧几里得 距离 属性 :

① 样本之间的距离非负 :d ( i , j ) ≥ 0 d(i, j) \geq 0 d(i,j)≥0 , 欧几里得 距离是先 求平方和 , 再开根号 , 这个值一定是一个大于等于 0 0 0 的数值 ;

② 样本与其本身的距离为 0 0 0 :d ( i , i ) = 0 d(i, i) = 0 d(i,i)=0 , 一个样本与其本身的 相似度值 肯定为 0 0 0 , 因为其属性值完全相同 ;

③ 对称性 :d ( i , j ) = d ( j , i ) d(i , j) = d(j , i) d(i,j)=d(j,i) , 样本 i i i 与 样本 j j j 的相似度 , 肯定等于 样本 j j j 与 样本 i i i 的相似度 ;

④ 三角不等式 :两边之和 , 一定大于第三边 , d ( i , j ) ≤ d ( i , l ) + d ( l , j ) d(i , j) \leq d(i , l) + d(l , j) d(i,j)≤d(i,l)+d(l,j) , 从 第 i i i 个样本到第 j j j 个样本的直接距离, 小于等于 其途径任何样本 l l l 生成的的两个距离之和 d ( i , l ) + d ( l , j ) d(i , l) + d(l , j) d(i,l)+d(l,j), 这两个距离分别是 样本 i i i 到 样本 l l l 的距离 d ( i , l ) d(i , l) d(i,l) , 和样本 l l l 到 样本 j j j 的距离 d ( l , j ) d(l , j) d(l,j) ;

5 . 属性权重 :计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 , w i w_i wi​ ;

公式变为 :

d ( i , j ) = w 1 ∣ x i 1 − x j 1 ∣ 2 + w 2 ∣ x i 2 − x j 2 ∣ 2 + ⋯ + w p ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { w_1 | x_{i1} - x_{j1} | ^2 + w_2 | x_{i2} - x_{j2} | ^2 + \cdots + w_p | x_{ip} - x_{jp} | ^2 } d(i,j)=w1​∣xi1​−xj1​∣2+w2​∣xi2​−xj2​∣2+⋯+wp​∣xip​−xjp​∣2 ​

其中 w 1 w_1 w1​ 表示属性 1 1 1 的权重 , w 2 w_2 w2​ 表示属性 2 2 2 的权重 , w p w_p wp​ 表示属性 p p p 的权重 ;

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 - 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离 | 欧几里得距离 )

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。