1200字范文 > 鸢尾花分类_机器学习：鸢尾花数据集--贝叶斯分类

鸢尾花分类_机器学习：鸢尾花数据集--贝叶斯分类

时间：2022-07-30 10:02:49

莺尾花数据集--贝叶斯分类

Step1: 库函数导入

import warnings

warnings.filterwarnings('ignore')

import numpy as np# 加载莺尾花数据集

from sklearn import datasets# 导入高斯朴素贝叶斯分类器

from sklearn.naive_bayes import GaussianNB

from sklearn.model_selection import train_test_splitStep2: 数据导入&分析

X, y=datasets.load_iris(return_X_y=True)

X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.2, random_state=0)

我们需要计算两个概率分别是：条件概率： ( ( )= ( )| = )P(X(i)=x(i)|Y=ck)和类目 ck的先验概率： ( = )P(Y=ck)。

通过分析发现训练数据是数值类型的数据，这里假设每个特征服从高斯分布，因此我们选择高斯朴素贝叶斯来进行分类计算。

Step3: 模型训练# 使用高斯朴素贝叶斯进行计算

clf=GaussianNB(var_smoothing=1e-8)

clf.fit(X_train, y_train)

GaussianNB(var_smoothing=1e-08)Step4: 模型预测# 评估

y_pred=clf.predict(X_test)

acc=np.sum(y_test==y_pred)/X_test.shape[0]

print("Test Acc : %.3f"%acc)

# 预测

y_proba=clf.predict_proba(X_test[:1])

print(clf.predict(X_test[:1]))

print("预计的概率值:", y_proba)

Test Acc : 0.967 [2] 预计的概率值: [[1.63542393e-232 2.18880483e-006 9.99997811e-001]]

Step5: 原理简析

高斯朴素贝叶斯假设每个特征都服从高斯分布，我们把一个随机变量X服从数学期望为μ，方差为σ^2的数据分布称为高斯分布。对于每个特征我们一般使用平均值来估计μ和使用所有特征的方差估计σ^2。

( ( )= ( )| = )=12 2 ⎯⎯⎯⎯⎯⎯⎯⎯√exp(−( ( )− )22 2 )P(X(i)=x(i)|Y=ck)=12πσy2exp⁡(−(x(i)−μck)22σck2)

从上述例子中的预测结果中，我们可以看到类别2对应的后验概率值最大，所以我们认为类目2是最优的结果。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。