1200字范文 > 数据清洗：缺失值识别和处理方法

数据清洗：缺失值识别和处理方法

时间：2022-07-18 10:25:16

相关推荐

数据清洗：缺失值识别和处理方法

缺失值识别

数据缺失分为两种：一是行记录的缺失；二是列值的缺失。

不同的数据存储和环境中对于缺失值的表示不同，例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。

构造数据：

#导入相关库import pandas as pd import numpy as np # 生成缺失数据df = pd.DataFrame(np.random.randn(6, 4),columns=['col1', 'col2', 'col3', 'col4']) df.iloc[:, 1] = np.nan df.iloc[4, 3] = np.nan print(df)

查看缺失值：

# 查看哪些值缺失，缺失值返回Truenan_all = df.isnull() print(nan_all) print() # 查看哪些列缺失nan_col1 = df.isnull().any() # 含有NA的列返回Truenan_col2 = df.isnull().all() # 全部为NA的列返回Trueprint(nan_col1) print(nan_col2)print() # 查看哪些行缺失nan_row1 = df.isnull().any(axis=1) # 含有NA的行返回Truenan_row2 = df.isnull().all(axis=1) # 全部为NA的行返回Trueprint(nan_row1) print(nan_row2) print()

# 查看每列缺失值个数print(df.isnull().sum())# 查看每列未缺失值个数，等价于df.count()print(df.notnull().sum())

缺失值处理方式

通常有四种思路：

1.丢弃

直接丢弃带有缺失值的行记录（整行删除）或者列字段（整列删除）。优点：方法简单明了，减少缺失数据对总体数据的影响。缺点：会消减数据特征。

以下任意一种场景都不宜丢弃缺失值：

数据集总体中存在大量的数据记录不完整情况且比例较大，例如超过10%，删除这些带有缺失值的记录意味着将会损失过多有用信息。带有缺失值的数据记录存在着明显的数据分布规律或特征，例如带有缺失值的数据记录的目标标签主要集中于某一类或几类，如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息，导致模型过拟合或分类不准确。

# 丢弃缺失值print(df.dropna()) # 直接丢弃含有NA的行记录，默认axis=0,how='any'print(df.dropna(how='all')) # 直接丢弃全部值为NA的行记录print(df.dropna(axis=1)) # 直接丢弃含有NA的列记录print(df.dropna(axis=1,how='all')) # 直接丢弃全部值为NA的列记录

2.补全

相对丢弃而言，补全是更加常用的缺失值处理方式，通过一定的方法将缺失的数据补上，从而形成完整的数据记录，对于后续的数据处理、分析和建模至关重要。

常用的补全方法包括：

统计法：对于数值型的数据，使用均值、加权均值、中位数等方法补足；对于分类型数据，使用众数等方法补足。模型法：可以基于已有的其他字段，将缺失字段作为目标变量进行预测，从而得到较为可能的补全值。如果带有缺失值的列是数值变量，采用回归模型补全；如果是分类变量，则采用分类模型补全。专家补全：对于少量且具有重要意义的数据记录，专家补足也是非常重要的一种途径。其他方法：例如随机法、特殊值法、多重填补等。

# 引入sklearn包from sklearn.impute import SimpleImputer # 建立模型规则：strategy默认mean,也可设置为median或most_frequentnan_model = SimpleImputer(missing_values=np.nan, strategy='mean') nan_result = nan_model.fit_transform(df) print(nan_result) #由于col2列全部为nan值，无法应用模型规则，col4列缺失值可以应用模型规则

# 使用pandas替换缺失值# 用后面的值替换缺失值，或者用bfillprint(df.fillna(method='backfill')) # 用后面的值替代缺失值,限制每列只能替代一个缺失值print(df.fillna(method='backfill', limit=1)) # 用前面的值替换缺失值，或者用ffillprint(df.fillna(method='pad')) # 用特定值替换缺失值，比如0，也可直接使用df.replace(np.nan,0)print(df.fillna(0)) # fillna函数传入字典，用不同值替换不同列的缺失值print(df.fillna({'col2': 1.1, 'col4': 1.2})) # 用平均数mean代替,选择各自列的均值替换缺失值，也可用中位数median或众数modeprint(df.fillna(df.mean())) # 插值填充，默认线性填充print(df.interpolate())