1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 数据预处理第4讲:缺失值填补

数据预处理第4讲:缺失值填补

时间:2018-07-17 20:07:54

相关推荐

数据预处理第4讲:缺失值填补

论文合作、课题指导请联系QQ2279055353

很多真实的数据集包括缺失值,这些缺失项通常编码为空,NaN, 或其它占位符。对待含缺失值的数据集,常见的处理办法是去掉缺失项所在的整行或整列。然而,这种办法的代价是失去了可能有信息的观测或变量。这样,一种更好的策略是填补缺失值,即,根据数据的已知部分,用特定的值代替它们。下面,我们介绍常用的缺失值填补方法。

单特征填补

单特征填补,是用缺失项所在的特征的非缺失值填补。SimpleImputer类提供了基本的单特征填补方法,包括使用常数值,特征的均值、中位数、众数统计量。下面的例子,使用列(axis 0)均值填补编码为NaN的缺失项。

SimpleImputer类也支持类别变量的缺失填补,使用most_frequentorconstant的参数值。

多特征填补

IterativeImputer类提供更加复杂的填补模型,使用特征的函数作为估计量。具体上说,在每一步,定义一个特征列作为输出y, 其它列组成输入X; 拟合关于(y, X)的回归模型,预测y的缺失值。

产生多项式特征

我们经常通过输入特征的非线性变换,增加模型的复杂度。一个简单的方法是使用多项式特征,即,产生特征的幂次或乘积项。PolynomialFeatures类产生多项式特征。下面,我们根据输入特征(X1,X2)(X_1, X_2)(X1​,X2​), 产生(1,X1,X2,X12,X1X2,X22)(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)(1,X1​,X2​,X12​,X1​X2​,X22​).

如果仅产生交互项,设置参数interaction_only=True.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。