偶是用Python来进行数据处理
首先,大家拿到一个数据,使用jupyter notebook来打开这个数据,这里偶使用pandas来进行数据的导入,请注意偶这里的数据格式为csv的,如果不是请换成别的格式即可。
导入数据后,大家就需要对它进行筛选、进行洗涤。比如说:数据里有一些空值、一些0值,大家要知道有多少,对整体有没有影响,那么大家就需要如下操作。lineitems_sample.isnull().sum()这句是用来统计空值总数的;那么,如果大家要统计下为0值的个数,大家可以这样,(lineitems_sample<0).sum()。这里解释下:
lineitems_sample
是一个csv格式的数据名。当然这只是对数据进行了简单处理(清洗),如果大家需要对数据进行聚类、降维那就需要了解更多的操作。根据具体的要求来进行相关性操作。这里偶使用PCA来进行降维。
偶想说Python可以很好的完成数据处理任务,一个是它开源,二个是支持库很多,随拿随用很方便!
处理后的数据可视化分析图
这里简单说一下,偶不知道你处理数据需不需要分析,可视化。偶用的是matplotlib
展示出来的效果如下:
当然还有很多种分析情况画出的分析图。这里就不在多说。
更多精彩,敬请期待!