1200字范文 > 相关性分析：皮尔逊相关系数——python实现Pearson correlation coefficient

一、理论知识：

要理解 Pearson 相关系数，首先要理解协方差（Covariance）。协方差表示两个变量 X，Y 间相互关系的数字特征，其计算公式为：

当 Y = X 时，即与方差相同。当变量 X，Y 的变化趋势一致时，如果某个 Xi 大于 X¯，相应的 Yi 也大于 Y¯；如果某个 Xi小于 X¯，相应的 Yi 也小于¯Y¯，那么 COV(X,Y)COV(X,Y) 就是正值，当变量 X，Y 的变化趋势相反时，那么 COV(X,Y)COV(X,Y) 就是负值。

Pearson 相关系数公式如下：

由公式可知，Pearson 相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但其数值上受量纲的影响很大，不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响，于是就有了相关系数的概念。

当相关系数为1时，成为完全正相关；当相关系数为-1时，成为完全负相关；相关系数的绝对值越大，相关性越强；相关系数越接近于0，相关度越弱。

二、函数：Pearsonr（x,y）

1）输入：x为特征，y为目标变量.

2）输出：r：相关系数 [-1，1]之间，p-value: p值。

注：p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。

三、python实现Pearson correlation coefficient

############导包#################import numpy as npfrom scipy.stats import pearsonrimport csv############导入数据#############Housing_dataset = np.loadtxt('./dataset/Housing_dataset03.csv',delimiter=",",skiprows=1)############切分数据#############X = Housing_dataset[:,1:-1]y = Housing_dataset[:,-1:]print(X.shape)print(y.shape)#############Pearsonr分析#########for i in range(0,13,1):x = X[:,i].reshape(-1,1)print(x.shape)#------------pearsonr（x,y）-------------result = pearsonr(x,y) #------------保存结果--------------------with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write:result_writer = csv.writer(file_write)result_writer.writerow(result)

Reference：

/huangfei711/article/details/78456165

/zhouwenyuan1015/article/details/65938847

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。