python数据处理之0值的替换和缺失值的填充
零值的替换:replace()方法里面填充的是键值对结构,注意空值必须用numpy.NaN来取而不是用字符串nulldata['AvgHomeValue'] = data['AvgHomeValue'].replace({0:np.NaN})
标记重复数据:用duplicated()方法
##todo 标记重复数据 并且增加新的一列dup来判断是否是重复的行 duplicateddata['dup'] = data.duplicated()
去重:通过刚刚获得的 ‘ dup ’列的数据来进行去重
data_dup = data[data['dup'] == True]data_undup = data[data['dup'] == False]
缺失值的填充:
我这里以平均值填充为例,先取出整列的平均值,形成标记列,在对缺失值进行填充(三部)。
##todo 处理缺失值Amean = data['Age'].mean(axis=0,skipna = True)data['AgeFlag'] = data['Age'].isnull()data['NewAge'] = data['Age'].fillna(Amean)