1200字范文 > pandas小记：pandas数据规整化-正则化分组合并及重塑

pandas小记：pandas数据规整化-正则化分组合并及重塑

时间：2024-08-16 19:10:17

/pipisorry/article/details/39506169

数据分析和建模方面的大量编程工作都是用在数据准备上的：加载、清理、转换以及重塑。有时候，存放在文件或数据库中的数据并不能满足数据处理应用的要求。

pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法，它们能够轻松地将数据规整化为正确的形式。

数据正则化data normalization

df_norm = (df - df.min()) / (df.max() - df.min())

或者df_norm2=df.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))

1 pandas dataframe实现

df = (df - df.mean()) / df.std()

# df.fillna(df.min(), inplace=True)

# df.fillna(args.nan_sub, inplace=True)

Note: df_norm会保留nan值

2 np实现

df_norm2 = df.apply(lambda x: (x - np.mean(x)) / (np.std(x)))

上面df.std()和np.std()算出来的值不一样，因为np.std(）计算的是总体标准差；df.std()计算的是样本标准差，是无偏估计。

3 sklearn实现

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。