1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 相关性分析:皮尔逊相关系数——python实现Pearson correlation coefficient

相关性分析:皮尔逊相关系数——python实现Pearson correlation coefficient

时间:2020-08-27 19:00:06

相关推荐

相关性分析:皮尔逊相关系数——python实现Pearson correlation coefficient

一、理论知识:

要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为:

当 Y = X 时,即与方差相同。当变量 X,Y 的变化趋势一致时,如果某个 Xi 大于 X¯,相应的 Yi 也大于 Y¯;如果某个 Xi小于 X¯,相应的 Yi 也小于¯Y¯,那么 COV(X,Y)COV(X,Y) 就是正值,当变量 X,Y 的变化趋势相反时,那么 COV(X,Y)COV(X,Y) 就是负值。

Pearson 相关系数公式如下:

由公式可知,Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。

当相关系数为1时,成为完全正相关;当相关系数为-1时,成为完全负相关;相关系数的绝对值越大,相关性越强;相关系数越接近于0,相关度越弱。

二、函数:Pearsonr(x,y)

1)输入:x为特征,y为目标变量.

2)输出:r: 相关系数 [-1,1]之间,p-value: p值。

注:p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。

三、python实现Pearson correlation coefficient

############导包#################import numpy as npfrom scipy.stats import pearsonrimport csv############导入数据#############Housing_dataset = np.loadtxt('./dataset/Housing_dataset03.csv',delimiter=",",skiprows=1)############切分数据#############X = Housing_dataset[:,1:-1]y = Housing_dataset[:,-1:]print(X.shape)print(y.shape)#############Pearsonr分析#########for i in range(0,13,1):x = X[:,i].reshape(-1,1)print(x.shape)#------------pearsonr(x,y)-------------result = pearsonr(x,y) #------------保存结果--------------------with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write:result_writer = csv.writer(file_write)result_writer.writerow(result)

Reference:

/huangfei711/article/details/78456165

/zhouwenyuan1015/article/details/65938847

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。