莺尾花数据集--贝叶斯分类
Step1: 库函数导入
import warnings
warnings.filterwarnings('ignore')
import numpy as np# 加载莺尾花数据集
from sklearn import datasets# 导入高斯朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_splitStep2: 数据导入&分析
X, y=datasets.load_iris(return_X_y=True)
X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.2, random_state=0)
我们需要计算两个概率分别是:条件概率: ( ( )= ( )| = )P(X(i)=x(i)|Y=ck)和类目 ck的先验概率: ( = )P(Y=ck)。
通过分析发现训练数据是数值类型的数据,这里假设每个特征服从高斯分布,因此我们选择高斯朴素贝叶斯来进行分类计算。
Step3: 模型训练# 使用高斯朴素贝叶斯进行计算
clf=GaussianNB(var_smoothing=1e-8)
clf.fit(X_train, y_train)
GaussianNB(var_smoothing=1e-08)Step4: 模型预测# 评估
y_pred=clf.predict(X_test)
acc=np.sum(y_test==y_pred)/X_test.shape[0]
print("Test Acc : %.3f"%acc)
# 预测
y_proba=clf.predict_proba(X_test[:1])
print(clf.predict(X_test[:1]))
print("预计的概率值:", y_proba)
Test Acc : 0.967 [2] 预计的概率值: [[1.63542393e-232 2.18880483e-006 9.99997811e-001]]
Step5: 原理简析
高斯朴素贝叶斯假设每个特征都服从高斯分布,我们把一个随机变量X服从数学期望为μ,方差为σ^2的数据分布称为高斯分布。对于每个特征我们一般使用平均值来估计μ和使用所有特征的方差估计σ^2。
( ( )= ( )| = )=12 2 ⎯⎯⎯⎯⎯⎯⎯⎯√exp(−( ( )− )22 2 )P(X(i)=x(i)|Y=ck)=12πσy2exp(−(x(i)−μck)22σck2)
从上述例子中的预测结果中,我们可以看到类别2对应的后验概率值最大,所以我们认为类目2是最优的结果。