数据预处理往往在数据分析和数据挖掘领域占到了很大的比重,甚至在机器学习这些海量数据处理的场合,数据预处理也是最核心的工作。介绍几个预处理阶段常用的库函数。
1.interpolate
插值函数,Scipy的子库,包含大量的插值函数,如拉格朗日插值,样条插值,高维插值等。
示例代码:
from scipy.interpolate import *f = scipy.interpolate.lagrange(x,y)# 其中x和y分别为自变量和因变量数据
2.unique
numpy库函数,也是Pandas中Series对象的一个方法。
示例代码:
import numpy as npimport pandas as pddata = [1, 2, 3]# data可以是list,ndarray,Seriesnp.unique(data)data =pd.Series(data)data.unique()
3.random
numpy的子库,生成特定分布的随机矩阵。
示例代码:
import numpy as npnp.random.randn(k, m, n)# 生成k*m*n的随机矩阵,元素服从正态分布
4.isnull/notnumm
Series对象的方法,返回布尔Series。
示例代码:
import pandas as pddata = pd.Series()D.isnull()D[D.notnull()]
5.PCA
主成分分析函数,是Scikit-Learn下的建模对象。
示例代码:
from sklearn.decomposition import PCAimport numpy as npD = np.random.rand(10,4)pca = PCA()pca.fit(D)PCA(copy=True, n_components=Noone, whiten=False)# 输出模型的特征向量print(ponents_)# 输出各个成分各自的方差百分比print(pca.explained_variance_ratio_)
具体代码包括实战项目可以查看我的github。