1200字范文 > Python 数据清洗之缺失数据填充fillna()

Python 数据清洗之缺失数据填充fillna()

时间：2020-07-04 08:30:06

数据量大，缺失数据比较少的情况下，可以直接滤除；数据量小，缺失数据比较多时，对数据进行填充就很有必要了。

数据填充函数fillna()，默认参数如下：

案例学习：

import numpy as npfrom numpy import nanimport pandas as pddata = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))print(data)data.iloc[0:2, 0:3] = nanprint(data)

运行结果：

# 用0填充缺失数据print(data.fillna(0))

运行结果：

# 用每列特征的均值填充缺失数据print(data.fillna(data.mean()))

运行结果：

# 用每列特征的中位数填充缺失数据print(data.fillna(data.median()))

运行结果：

# 用相邻后面（back）特征填充前面空值print(data.fillna(method='bfill'))print(data.fillna(method='backfill'))

运行结果：

# 用相邻前面（before）特征填充后面空值print(data.fillna(method='ffill'))print(data.fillna(method='pad'))

运行结果：

# 用字典对不同的列填充不同的缺失数据values = {"a": 10, "b": 20, "c": 30}print(data.fillna(value=values))

运行结果：

完整代码如下：

import numpy as npfrom numpy import nanimport pandas as pddata = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))print(data)data.iloc[1:2, 0:3] = nanprint(data)# 用0填充缺失数据print("\n用0填充缺失数据\n", data.fillna(0))# 用每列特征的均值填充缺失数据print("\n用每列特征的均值填充缺失数据\n", data.fillna(data.mean()))# 用每列特征的中位数填充缺失数据print("\n用每列特征的中位数填充缺失数据\n", data.fillna(data.median()))# 用相邻后面（back）特征填充前面空值print("\n用相邻后面（back）特征填充前面空值\n", data.fillna(method='bfill'))print("\n用相邻后面（back）特征填充前面空值\n", data.fillna(method='backfill'))# 用相邻前面（before）特征填充后面空值print("\n用相邻前面（before）特征填充后面空值\n", data.fillna(method='ffill'))print("\n用相邻前面（before）特征填充后面空值\n", data.fillna(method='pad'))# 用字典对不同的列填充不同的缺失数据values = {"a": 10, "b": 20, "c": 30}print("\n用字典对不同的列填充不同的缺失数据\n", data.fillna(value=values))

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。