1200字范文 > KNN算法实现knn完成iris数据集分类

KNN算法实现knn完成iris数据集分类

时间：2018-09-11 01:01:05

最近邻规则分类KNN

例子

欧氏距离

K值选取

算法缺点

算法实现

import matplotlib.pyplot as pltimport numpy as npimport operator# 已知分类的数据x1 = np.array([3,2,1])y1 = np.array([104,100,81])#上面是爱情片的坐标，下面是动作片的坐标x2 = np.array([101,99,98])y2 = np.array([10,5,2])scatter1 = plt.scatter(x1,y1,c='r')scatter2 = plt.scatter(x2,y2,c='b')# 未知数据x = np.array([18])y = np.array([90])scatter3 = plt.scatter(x,y,c='k')#画图例plt.legend(handles=[scatter1,scatter2,scatter3],labels=['labelA','labelB','X'],loc='best')plt.show()

# 已知分类的数据x_data = np.array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])y_data = np.array(['A','A','A','B','B','B'])x_test = np.array([18,90])

# 计算样本数量x_data_size = x_data.shape[0]x_data_size

# 复制x_testnp.tile(x_test, (x_data_size,1))

# 计算x_test与每一个样本的差值diffMat = np.tile(x_test, (x_data_size,1)) - x_datadiffMat

# 计算差值的平方sqDiffMat = diffMat**2sqDiffMat

# 求和sqDistances = sqDiffMat.sum(axis=1)sqDistances

# 开方distances = sqDistances**0.5distances

# 从小到大排序sortedDistances = distances.argsort()sortedDistances

classCount = {}# 设置kk = 5for i in range(k):# 获取标签votelabel = y_data[sortedDistances[i]]# 统计标签数量classCount[votelabel] = classCount.get(votelabel,0) + 1

classCount

# 根据operator.itemgetter(1)-第1个值对classCount排序，然后再取倒序sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True)sortedClassCount

# 获取数量最多的标签knnclass = sortedClassCount[0][0]knnclass

iris分类

# 导入算法包以及数据集import numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_report,confusion_matriximport operatorimport random

def knn(x_test, x_data, y_data, k):# 计算样本数量x_data_size = x_data.shape[0]# 复制x_testnp.tile(x_test, (x_data_size,1))# 计算x_test与每一个样本的差值diffMat = np.tile(x_test, (x_data_size,1)) - x_data# 计算差值的平方sqDiffMat = diffMat**2# 求和sqDistances = sqDiffMat.sum(axis=1)# 开方distances = sqDistances**0.5# 从小到大排序sortedDistances = distances.argsort()classCount = {}for i in range(k):# 获取标签votelabel = y_data[sortedDistances[i]]# 统计标签数量classCount[votelabel] = classCount.get(votelabel,0) + 1# 根据operator.itemgetter(1)-第1个值对classCount排序，然后再取倒序sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True)# 获取数量最多的标签return sortedClassCount[0][0]

# 载入数据iris = datasets.load_iris()# x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, test_size=0.2) #分割数据0.2为测试数据，0.8为训练数据#打乱数据data_size = iris.data.shape[0]index = [i for i in range(data_size)] random.shuffle(index) iris.data = iris.data[index]iris.target = iris.target[index]#切分数据集test_size = 40x_train = iris.data[test_size:]x_test = iris.data[:test_size]y_train = iris.target[test_size:]y_test = iris.target[:test_size]predictions = []for i in range(x_test.shape[0]):predictions.append(knn(x_test[i], x_train, y_train, 5))print(classification_report(y_test, predictions))

print(confusion_matrix(y_test,predictions))#混淆矩阵

sklearn进行iris分类

# 导入算法包以及数据集from sklearn import neighborsfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportimport random

# 载入数据iris = datasets.load_iris()print(iris)

# 打乱数据切分数据集# x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, test_size=0.2) #分割数据0.2为测试数据，0.8为训练数据#打乱数据data_size = iris.data.shape[0]index = [i for i in range(data_size)] random.shuffle(index) iris.data = iris.data[index]iris.target = iris.target[index]#切分数据集test_size = 40x_train = iris.data[test_size:]x_test = iris.data[:test_size]y_train = iris.target[test_size:]y_test = iris.target[:test_size]# 构建模型model = neighbors.KNeighborsClassifier(n_neighbors=3)model.fit(x_train, y_train)prediction = model.predict(x_test)print(classification_report(y_test, prediction))

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。