1200字范文 > 02-分类算法：knn 朴素贝叶斯决策树和随机森林

02-分类算法：knn 朴素贝叶斯决策树和随机森林

时间：2024-01-12 19:29:56

sklearn数据集

一、数据集划分

二、数据集获取

三、sklearn机器学习算法的实现-估计器

分类算法-k近邻算法(KNN)

一、定义：

二、公式：

三、语法：

四、模型调优方法：

1、交叉验证

2、网格搜索

五、k-近邻算法优缺点

六、案例：预测入住位置

分类算法-朴素贝叶斯算法

一、概率基础

二、朴素贝叶斯-贝叶斯公式

三、语法

四、朴素贝叶斯分类优缺点

五、模型评估

六、案例

分类算法-决策树

一、决策树的划分依据之一信息增益

二、常见决策树使用的算法

三、sklearn决策树语法

四、决策树的优缺点以及改进

分类算法-集成学习-随机森林

一、定义：

二、学习算法：

三、要求：

四、集成学习随机森林语法

五、随机森林的优点

六、案例

sklearn数据集

一、数据集划分

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效

语法：sklearn.model_selection.train_test_split

x：数据集的特征值y：数据集的标签值test_size：测试集的大小，一般为floatrandom_state：随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。return：训练集特征值，测试集特征值，训练标签，测试标签 (默认随机取)

二、数据集获取

语法：sklearn.datasets（加载获取流行数据集）

datasets.load_*() （获取小规模数据集，数据包含在datasets里）datasets.fetch_*(data_home=None) （获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/）

三、sklearn机器学习算法的实现-估计器

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API

1、用于分类的估计器：

sklearn.neighbors k-近邻算法sklearn.naive_bayes 贝叶斯sklearn.linear_model.LogisticRegression 逻辑回归

2、用于回归的估计器：

sklearn.linear_model.LinearRegression 线性回归sklearn.linear_model.Ridge 岭回归

分类算法-k近邻算法(KNN)

一、定义：

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

二、公式：

两个样本的距离可以通过如下公式计算，又叫欧式距离，比如说，a(a1,a2,a3),b(b1,b2,b3)

三、语法：

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

四、模型调优方法：

1、交叉验证

为了让被评估的模型更加准确可信。将拿到的数据，分为训练和验证集。以下图为例：将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。

2、网格搜索

通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估，最后选出最优参数组合建立模型。

语法：sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)对估计器的指定参数值进行详尽搜索

estimator：估计器对象param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}cv：指定几折交叉验证fit：输入训练数据score：准确率

结果分析：

best_score_:在交叉验证中测试的最好结果best_estimator_：最好的参数模型cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果

五、k-近邻算法优缺点

优点：简单，易于理解，易于实现，无需估计参数，无需训练

缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大必须指定K值，K值选择不当则分类精度不能保证

使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

六、案例：预测入住位置

from sklearn.model_selection import train_test_split,GridSearchCV #训练测试划分from sklearn.neighbors import KNeighborsClassifier#K近邻from sklearn.preprocessing import StandardScaler #标准化def knncls():"""K-近邻预测用户签到位置:return:None"""# 读取数据data = pd.read_csv("train.csv")# 处理数据# 1、缩小数据,查询query数据晒讯data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")# 处理时间的数据time_value = pd.to_datetime(data['time'], unit='s')# 把日期格式转换成字典格式time_value = pd.DatetimeIndex(time_value)# 构造一些特征data['day'] = time_value.daydata['hour'] = time_value.hourdata['weekday'] = time_value.weekday# 把时间戳特征删除data = data.drop(['time'], axis=1)#print(data)# 把签到数量少于n个目标位置删除place_count = data.groupby('place_id').count() #统计次数（同一个id的个数）tf = place_count[place_count.row_id > 3].reset_index()data = data[data['place_id'].isin(tf.place_id)]print(data)# 取出数据当中的特征值和目标值y = data['place_id'] #目标值x = data.drop(['place_id', 'row_id'], axis=1) #特征值，按列删除# 进行数据的分割训练集合测试集x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)# 特征工程（标准化）std = StandardScaler()# 对测试集和训练集的特征值进行标准化x_train = std.fit_transform(x_train)x_test = std.transform(x_test)# 进行算法流程 # 超参数knn = KNeighborsClassifier()# # fit， predict,score# knn.fit(x_train, y_train) #训练## # 得出预测结果# y_predict = knn.predict(x_test) #预测要用测试特征测试# print("预测的目标签到位置为：", y_predict)## # 得出准确率# print("预测的准确率:", knn.score(x_test, y_test))# 构造一些参数的值进行搜索param = {"n_neighbors": [3, 5, 10]}# 进行网格搜索gc = GridSearchCV(knn, param_grid=param, cv=4)gc.fit(x_train, y_train)# 预测准确率print("在测试集上准确率：", gc.score(x_test, y_test))print("在交叉验证当中最好的结果：", gc.best_score_)print("选择最好的模型是：", gc.best_estimator_)print("每个超参数每次交叉验证的结果：", gc.cv_results_)return Noneif __name__ == "__main__":knncls()

分类算法-朴素贝叶斯算法

一、概率基础

二、朴素贝叶斯-贝叶斯公式

防止分类时，类别概率为0

三、语法

sklearn.naive_bayes.MultinomialNB(alpha = 1.0) 朴素贝叶斯分类

alpha：拉普拉斯平滑系数

四、朴素贝叶斯分类优缺点

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。对缺失数据不太敏感，算法也比较简单，常用于文本分类。分类准确度高，速度快。不需要调参数。

缺点：

需要知道先验概率P(F1,F2,…|C)，假设了某两者之间是独立关系，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。因为是在训练集中进行统计工作，所以会对结果造成干扰。训练集误差大，结果肯定不好。神经网络效果会更好。

五、模型评估

estimator.score() 一般最常见使用的是准确率，即预测结果正确的百分比

召回率：真实为正例的样本中预测结果为正例的比例（查的全，对正样本的区分能力）

语法：sklearn.metrics.classification_report(y_true, y_pred, target_names=None)

y_true：真实目标值y_pred：估计器预测目标值target_names：目标类别名称return：每个类别精确率与召回率

六、案例

加载20类新闻数据，并进行分割生成文章特征词朴素贝叶斯estimator流程进行预估

from sklearn.datasets import fetch_20newsgroups #读取数据from sklearn.model_selection import train_test_split,GridSearchCV #训练测试划分from sklearn.feature_extraction.text import TfidfVectorizer #特征抽取from sklearn.naive_bayes import MultinomialNB #朴素贝叶斯，from sklearn.metrics import classification_report #每个类别的精确率和召回率import pandas as pddef naviebayes():"""朴素贝叶斯进行文本分类:return: None"""news = fetch_20newsgroups(subset='all')# 进行数据分割x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)# 对数据集进行特征抽取tf = TfidfVectorizer()# 以训练集当中的词的列表进行每篇文章重要性统计['a','b','c','d']x_train = tf.fit_transform(x_train)print(tf.get_feature_names())x_test = tf.transform(x_test)# 进行朴素贝叶斯算法的预测mlt = MultinomialNB(alpha=1.0) #拉普拉斯平滑系数alphaprint(x_train.toarray())mlt.fit(x_train, y_train)y_predict = mlt.predict(x_test)print("预测的文章类别为：", y_predict)# 得出准确率print("准确率为：", mlt.score(x_test, y_test))print("每个类别的精确率和召回率：", classification_report(y_test, y_predict, target_names=news.target_names))return Noneif __name__ == "__main__":naviebayes()

分类算法-决策树

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。

一、决策树的划分依据之一信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：

注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

二、常见决策树使用的算法

ID3 信息增益最大的准则C4.5 信息增益比最大的准则CART ①回归树: 平方误差最小 ②分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则

三、sklearn决策树语法

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

决策树分类器criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’max_depth:树的深度大小random_state:随机数种子method: decision_path:返回决策树的路径

四、决策树的优缺点以及改进

1、优点：

简单的理解和解释，树木可视化。需要很少的数据准备，其他技术通常需要数据归一化

2、缺点：

决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成

3、改进：

减枝cart算法随机森林

分类算法-集成学习-随机森林

一、定义：

集成学习方法：通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测

定义：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结果是False, 那么最终结果会是True。

二、学习算法：

根据下列算法而建造每棵树：

用N来表示训练用例（样本）的个数，M表示特征数目。输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。

三、要求：

为什么要随机抽样训练集？

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的。

为什么要有放回地抽样？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“片面的”（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

四、集成学习随机森林语法

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None)

随机森林分类器

n_estimators：integer，optional（default = 10）森林里的树木数量criteria：string，可选（default =“gini”）分割特征的测量方法max_depth：integer或None，可选（默认=无）树的最大深度bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样max_features="auto",每个决策树的最大特征数量（定几个特征，不能太多，防止过拟合）

五、随机森林的优点

在当前所有算法中，具有极好的准确率能够有效地运行在大数据集上能够处理具有高维特征的输入样本，而且不需要降维能够评估各个特征在分类问题上的重要性对于缺省值问题也能够获得很好得结果

六、案例

泰坦尼克号乘客生存分类模型

1、pd读取数据2、选择有影响的特征，处理缺失值3、进行特征工程，pd转换字典，特征抽取 x_train.to_dict(orient="records")4、决策树估计器流程

from sklearn.model_selection import train_test_split,GridSearchCV #训练测试划分from sklearn.feature_extraction import DictVectorizer #字典特征抽取from sklearn.tree import DecisionTreeClassifier, export_graphviz #决策树from sklearn.ensemble import RandomForestClassifier #随机森林import pandas as pddef decision():"""决策树对泰坦尼克号进行预测生死:return: None"""# 获取数据titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")# 处理数据，找出特征值和目标值x = titan[['pclass', 'age', 'sex']]y = titan['survived']# 缺失值处理x['age'].fillna(x['age'].mean(), inplace=True) #填补age的平均值，inplace=True默认替换# 分割数据集到训练集合测试集x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)# 进行处理（特征工程）特征-》类别-》one_hot编码dict = DictVectorizer(sparse=False)x_train = dict.fit_transform(x_train.to_dict(orient="records")) #转化成字典print(dict.get_feature_names())x_test = dict.transform(x_test.to_dict(orient="records")) #转化成字典# #用决策树进行预测# dec = DecisionTreeClassifier()# dec.fit(x_train, y_train)## # 预测准确率# print("预测的准确率：", dec.score(x_test, y_test))# 随机森林进行预测（超参数调优）rf = RandomForestClassifier()param = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}# 网格搜索与交叉验证gc = GridSearchCV(rf, param_grid=param, cv=2)gc.fit(x_train, y_train)print("准确率：", gc.score(x_test, y_test))print("查看选择的参数模型：", gc.best_params_)return Noneif __name__ == "__main__":decision()

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。