1200字范文 > 数据分析与挖掘-python常用数据预处理函数

数据分析与挖掘-python常用数据预处理函数

时间：2023-11-10 19:43:54

数据预处理往往在数据分析和数据挖掘领域占到了很大的比重，甚至在机器学习这些海量数据处理的场合，数据预处理也是最核心的工作。介绍几个预处理阶段常用的库函数。

1.interpolate

插值函数，Scipy的子库，包含大量的插值函数，如拉格朗日插值，样条插值，高维插值等。

示例代码：

from scipy.interpolate import *f = scipy.interpolate.lagrange(x,y)# 其中x和y分别为自变量和因变量数据

2.unique

numpy库函数，也是Pandas中Series对象的一个方法。

示例代码：

import numpy as npimport pandas as pddata = [1, 2, 3]# data可以是list，ndarray，Seriesnp.unique(data)data =pd.Series(data)data.unique()

3.random

numpy的子库，生成特定分布的随机矩阵。

示例代码：

import numpy as npnp.random.randn(k, m, n)# 生成k*m*n的随机矩阵，元素服从正态分布

4.isnull/notnumm

Series对象的方法，返回布尔Series。

示例代码：

import pandas as pddata = pd.Series()D.isnull()D[D.notnull()]

5.PCA

主成分分析函数，是Scikit-Learn下的建模对象。

示例代码：

from sklearn.decomposition import PCAimport numpy as npD = np.random.rand(10,4)pca = PCA()pca.fit(D)PCA(copy=True, n_components=Noone, whiten=False)# 输出模型的特征向量print(ponents_)# 输出各个成分各自的方差百分比print(pca.explained_variance_ratio_)

具体代码包括实战项目可以查看我的github。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。