1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > pandas小记:pandas数据规整化-正则化 分组合并及重塑

pandas小记:pandas数据规整化-正则化 分组合并及重塑

时间:2024-08-16 19:10:17

相关推荐

pandas小记:pandas数据规整化-正则化 分组合并及重塑

/pipisorry/article/details/39506169

数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重 塑。有时候,存放在文件或数据库中的数据并不能满足数据处理应用的要求。

pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法,它们能够轻松地将数据规整化为正确的形式。

数据正则化data normalization

min-max标准化(对列进行)

df_norm = (df - df.min()) / (df.max() - df.min())

或者df_norm2=df.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))

Z-score标准化(对列进行)

1 pandas dataframe实现

df = (df - df.mean()) / df.std()

# df.fillna(df.min(), inplace=True)

# df.fillna(args.nan_sub, inplace=True)

Note: df_norm会保留nan值

2 np实现

df_norm2 = df.apply(lambda x: (x - np.mean(x)) / (np.std(x)))

上面df.std()和np.std()算出来的值不一样,因为np.std()计算的是总体标准差;df.std()计算的是样本标准差,是无偏估计。

3 sklearn实现

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。