1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 如何使用Seaborn进行探索性数据分析 – python – 前端 python 二进制数据

如何使用Seaborn进行探索性数据分析 – python – 前端 python 二进制数据

时间:2022-06-06 08:56:44

相关推荐

如何使用Seaborn进行探索性数据分析 – python – 前端 python 二进制数据

探索性数据分析(EDA)是一种分析机器学习数据集以总结其主要特征的方法。它用于理解数据,获取有关它的一些上下文,理解变量和它们之间的关系,并制定在构建机器学习预测模型时可能有用的假设。

所有数据分析必须以一些关键问题或目标为指导。在开始任何数据分析任务之前,您应该有一个明确的目标。当您的目标允许您了解您的数据和问题时,您将能够从分析中获得有意义的结果!

在本教程中,大家将学习如何使用数据可视化来执行EDA。具体来说,大家将重点介绍seaborn,这是一个构建在matplotlib之上的Python库,支持NumPy和panda。

seaborn使大家能够制作出具有吸引力和信息丰富的统计图形。尽管matplotlib使得可视化任何东西都成为可能,但是要使图形具有视觉吸引力通常是困难和乏味的。seaborn通常用于使默认的matplotlib图看起来更好,并引入了一些额外的图类型。

大家将介绍如何进行视觉分析:

直方图的数值变量,

带有计数图的分类变量,

数值变量与散点图,joint plots和pair plots之间的关系

数值和分类变量与盒须图和复杂条件图之间的关系

通过有效地可视化机器学习数据集的变量及其关系,数据分析师或数据科学家能够快速了解​​趋势,异常值和模式。然后,可以使用这种理解来决策并创建机器学习预测模型。

数据准备

数据准备是任何数据分析的第一步,以确保以可分析的形式清理和转换数据。

大家将在Ames Housing数据集上执行EDA(

/data/house.xls) 。这个数据集在那些开始学习数据科学和机器学习的人群中很受欢迎,因为它包含了爱荷华州艾姆斯出售的不同房屋几乎所有特征的数据。然后可以使用该数据来尝试预测销售价格。

请先进行数据集清理然后进行分析。大家要做的就是过滤一些变量来简化大家的任务。首先,让大家将数据读取为panda DataFrame:这个数据集在那些开始学习数据科学和机器学习的人群中很受欢迎,因为它包含了爱荷华州艾姆斯出售的不同房屋几乎所有特征的数据。然后可以使用该数据来尝试预测销售价格。

此数据集已经过清理并可以进行分析。大家要做的就是过滤一些变量来简化大家的任务。首先,让大家将数据读取为panda DataFrame:

import pandas as pd

import matplotlib as plt

housing = pd.read_csv(‘house.csv’)

housing.info()

此图像仅显示数据集中前五列的信息

如果您在Jupyter notebook中运行此Python代码,则可以看到有1,460个观察值和81列。每列代表DataFrame中的变量。大家可以从每列的数据类型中看到它是什么类型的变量。

大家将只处理其中的一些变量——让大家将它们的名称过滤并存储在两个名为numerical和categorical的列表中,然后重新定义大家的housing DataFrame,使其只包含这些变量:

numerical = [

‘SalePrice’, ‘LotArea’, ‘OverallQual’, ‘OverallCond’, ‘1stFlrSF’, ‘2ndFlrSF’, ‘BedroomAbvGr’

]

categorical = [

‘MSZoning’, ‘LotShape’, ‘Neighborhood’, ‘CentralAir’, ‘SaleCondition’, ‘MoSold’, ‘YrSold’

]

housing = housing[numerical + categorical]

housing.shape

Out: (1460, 14)

从housing.shape中,大家可以看到DataFrame现在只有14列。让大家来分析一下!

分析数值变量

大家的EDA目标是了解此数据集中的变量如何与房屋的销售价格相关。

在大家做到这一点之前,大家需要先了解变量。让大家从数值变量开始,特别是大家的目标变量SalePrice。

数值变量就是那些数值为数字的变量。当大家有数值变量时,大家要做的第一件事是了解变量可以取什么值,以及分布和离散度。这可以通过直方图来实现:

import seaborn as sns

sns.set(style=’whitegrid’, palette=”deep”, font_scale=1.1, rc={“figure.figsize”: [8, 5]})

sns.distplot(

housing[‘SalePrice’], norm_hist=False, kde=False, bins=20, hist_kws={“alpha”: 1}

).set(xlabel=’Sale Price’, ylabel=’Count’);

SalePrice变量的分布

请注意,seaborn库被导入为sns。

只需一种方法sns.set(),大家就可以设计图形样式,更改颜色,增加字体大小以提高可读性,并更改图形大小。

大家使用distplot来绘制seaborn中的直方图。默认情况下,这会绘制带有核密度估计(KDE)的直方图。您可以尝试更改参数kde=True,看看它是什么样子的。

看一下直方图,大家可以看到,很少有房子的价格低于10万,大多数房子的价格在10万到20万之间,很少有房子的价格高于40万。

如果大家想为所有数值变量创建直方图,pandas提供最简单的解决方案:

housing[numerical].hist(bins=15, figsize=(15, 6), layout=(2, 4));

每个数值变量的分布

从这个可视化中,大家获得了大量信息。大家可以看到1stFlrSF(一楼面积)严重偏态,大多数房屋没有二楼,并且有3个BedroomAbvGr(地上卧室)。大多数房屋的售价分别OverallCond of 5和OverallQual of 5或更高。LotArea可视化更难理解——但是大家可以看出,在建模之前可能需要删除一个或多个异常值。

请注意,该图保留了大家之前使用seaborn设置的样式。

分析分类变量

分类变量是指其值被标注类别的变量。分类变量的值、分布和离散度最好通过条形图来理解。让大家分析一下SaleCondition变量。seaborn为大家提供了一种非常简单的方法来显示每个类的观测计数:countplot。

sns.countplot(housing[‘SaleCondition’]);

该图中的条形表示每种销售条件下的房屋数量

从可视化的角度,大家可以很容易地看到,大多数房屋是在Normal情况下出售的,而在AjdLand(毗连土地购买)、Alloca(分配:两个有独立契约的相互关联的房产)和Family 家庭成员之间的销售)条件下出售的很少。

为了可视化数据集中的所有分类变量,就像大家对数值变量所做的那样,大家可以循环遍历pandas序列来创建子图。

使用plt.subplots,大家可以创建一个包含2行和4列网格的图形。然后大家遍历每个分类变量,使用seaborn创建countplot:

fig, ax = plt.subplots(2, 4, figsize=(20, 10))

for variable, subplot in zip(categorical, ax.flatten()):

sns.countplot(housing[variable], ax=subplot)

for label in subplot.get_xticklabels():

label.set_rotation(90)

每个分类变量的Countplots

第二个for循环只是获取每个x-tick标签并将其旋转90度,以使文本更适合图标(如果您想知道不旋转文本的外观,可以删除这两行)。

与大家的数值变量直方图一样,大家可以从这个视觉中收集大量信息 – 大多数房屋都有RL(住宅低密度)分区分类,有Regular地段形状,并且有CentralAir。大家还可以看到,在夏季,房屋销售频繁,大多数房屋在NAmes(北艾姆斯)社区出售,销售有所下降。

但是,如果大家YrSold进一步检查变量,大家可以看到这种“下降”实际上是由于只收集了截至7月的数据。

housing[housing[‘YrSold’] == ].groupby(‘MoSold’)[‘YrSold’].count()

正如您所看到的,彻底探索变量及其价值非常重要 – 如果大家在假设销售额下降的情况下建立了预测销售价格的模型,那么这种模型可能会非常不准确。

既然大家已经探索了数值和分类变量,那么让大家来看看这些变量之间的关系 – 更重要的是,这些变量如何影响大家的目标变量SalePrice!

分析数值变量之间的关系

绘制变量之间的关系使大家能够轻松地了解模式和相关性。

该散点图通常用于可视化两个数值型变量之间的关系。seaborn创建散点图的方法非常简单:

sns.scatterplot(x=housing[‘1stFlrSF’], y=housing[‘SalePrice’]);

1stFlrSF与SalePrice之间的关系

从散点图中,大家可以看到房子的1stFlrSF和房子的SalePrice之间存在正相关关系。换句话说,房子的一楼越大,可能的售价就越高。

您还可以看到,axis标签在默认情况下是为大家添加的,并且标记是自动列出的,以使它们更加清晰——这与matplotlib相反,在matplotlib中这些不是默认的。

seaborn还为大家提供了一个很好的函数jointplot,它将为您提供一个散点图,显示两个变量之间的关系以及边距中每个变量的直方图 – 也称为边际图。

sns.jointplot(x=housing[‘1stFlrSF’], y=housing[‘SalePrice’]);

显示1stFlrSF与SalePrice及其各自分布关系的联合图

您不仅可以看到这两个变量之间的关系,而且还可以看到它们是如何单独分布的。

分析数值和类别变量之间的关系

盒须图通常用于可视化数值变量和分类变量之间的关系,复杂条件图用于可视化条件关系。

让大家先用seaborn的boxplot方法创建盒须图:

fig, ax = plt.subplots(3, 3, figsize=(15, 10))

for var, subplot in zip(categorical, ax.flatten()):

sns.boxplot(x=var, y=’SalePrice’, data=housing, ax=subplot)

每个分类变量及其与SalePrice的关系的盒须图

在这里,大家遍历了每个子图,以生成所有类别变量和SalePrice之间的可视化。

大家可以看到具有FV(Floating Village Residential)zoning 分类的房屋的平均SalePrice高于其他zoning 分类,有CentralAir的房屋和部分(上次评估时未完成的房屋)销售合同的房屋的平均售价也高于其他zoning分类。大家还可以看到,不同lotshape的房子之间,MoSold和yrsell之间的平均售价差异很小。

让大家仔细看看Neighborhood变量。大家看到,对于不同的neighborhood,肯定有不同的分布,但是可视化有点难以理解。让大家使用额外的参数顺序,按照最便宜的neighborhood到最昂贵的(按照中间价格)对box plot进行排序。

sorted_nb = housing.groupby([‘Neighborhood’])[‘SalePrice’].median().sort_values()

sns.boxplot(x=housing[‘Neighborhood’], y=housing[‘SalePrice’], order=list(sorted_nb.index))

分类盒须图显示Neighborhood与SalePrice的关系

在上面的Python代码片段中,大家按照median 价格对neighborhood进行了排序,并将其存储在sorted_nb中。然后,大家将这个neighborhood名称列表传递到order参数中,以创建一个排序的箱形图。

这个数字给了大家很多信息。大家可以看到,在最便宜的街区,房屋的售价median价格约为10万美元,在最昂贵的社区,房屋售价约为30万美元。大家还可以看到,对于一些neighborhoods而言,价格之间的差异非常小,这意味着所有价格都相互接近。然而,在最昂贵的街区,大家看到一个大盒子——价格分布有很大的分散性。

最后,seaborn还允许大家创建显示条件关系的图。例如,如果大家正在调整Neighborhood,使用该FacetGrid函数大家可以看到变量OverallQual和SalePrice变量之间的散点图:

cond_plot = sns.FacetGrid(data=housing, col=’Neighborhood’, hue=’CentralAir’, col_wrap=4)

cond_plot.map(sns.scatterplot, ‘OverallQual’, ‘SalePrice’);

此图像仅显示前12个图。实际上有25个图 – 每个neighborhood一个

对于每个单独的neighborhood ,大家可以看到OverallQual和SalePrice之间的关系。

大家还在hue参数(可选)中添加了另一个categorical变量CentralAir——橙色的点对应于没有CentralAir的房屋。如你所见,这些房子的售价往往较低。

FacetGrid方法使生成复杂的可视化和获取有价值的信息变得非常容易。生成这些可视化来快速了解变量关系是一个很好的实践。

最后

在大家的探索过程中,大家发现了个别变量中的异常值和趋势,以及变量之间的关系。这些知识可以用来建立一个模型来预测艾姆斯的房价。例如,由于大家发现SalePrice与CentralAir、1stFlrSf、SaleCondition和Neighborhood变量之间存在相关性,大家可以从使用这些变量的简单机器学习模型开始。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。