1200字范文 > 【KNN】使用KNN算法实现对iris数据集的分类

【KNN】使用KNN算法实现对iris数据集的分类

时间：2023-05-10 17:28:12

一、实验报告

1、实验目的:使用KNN算法实现对iris数据集的分类

2、实验要求：（1）5次随机选取，对比分类准确率（2）探讨不同k值对分类准确率的影响

二、实验内容

1、数据预处理

调用numpy库读取Iris.txt数据集，使用shuffle随机打乱数据，用replace函数把最后一列label替换成012，便于数据处理。用切片函数iloc将原始数据拆分成为data和label数据训练集和测试集按照设置好的比例分配返回训练集与测试集

2、模型构建

定义一个计算欧式距离的函数，test数据减去train数据，再平方，把每个特征相加，最好开方。

KNN算法原理：计算出样本数据和测试数据的欧氏距离距离为测试数据选择k个与其距离最小的样本统计出k个样本所在类别的出现频率返回前K个点中出现频率最高的类别作为测试数据的预测分类

实现：定义一个空的预测列表，得到每个训练数据的长度用两次for循环计算每一个测试集与每一个训练集的距离，使用argsort函数从低到高排序并返回索引，定义一个空计数列表count用for循环，每一次循环获得下标所对应的标签值，将标签存入字典之中并存入个数，取出k个最短距离用sorted函数对标签进行排序，将出现频次最高的列表放入预测列表中，循环结束return预测列表

3、计算准确度计算在测试数据集中算法正确预测的比例。

4、主函数设计

设定好训练集和测试集比例0.3，用for循环设置k的值，从2到20取值，输出精度，并绘制图如下所示：

三、结果分析

KNN算法易于实现，无需估计参数，K值用于选择最近邻的数目，K的选择非常敏感。K值越小意味着模型复杂度越高，从而容易产生过拟合；K值越大则意味着整体的模型变得简单，学习的近似误差会增大，由于数据集很小，并每次都随机选取，每次测试结果会有所变动，通过结果对比k值取5、6、7准确率比较高。

四、代码

import operatorimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.utils import shuffledef split_data_set(path, split_rate):list1 = pd.read_csv(path)list1 = shuffle(list1)total_length = len(list1)split_point = int(total_length * split_rate)list1 = list1.replace("Iris-setosa", "0")list1 = list1.replace("Iris-versicolor", "1")list1 = list1.replace("Iris-virginica", "2")x = list1.iloc[:, 0:4]x_train = x.iloc[:split_point, :]x_test = x.iloc[split_point:total_length + 1, :]y = list1.iloc[:, 4]y_train = y.iloc[:split_point]y_test = y.iloc[split_point:total_length + 1]return np.array(x_train), np.array(x_test), np.array(y_train), np.array(y_test)def data_diatance(x_test, x_train):distances = np.sqrt(sum((x_test - x_train) ** 2))return distancesdef knn(x_test, x_train, y_train, k):predict_result_set = []train_set_size = len(x_train)distances = np.array(np.zeros(train_set_size))# 计算每一个测试集与每一个训练集的距离for i in x_test:for indx in range(train_set_size):# 计算数据之间的距离distances[indx] = data_diatance(i, x_train[indx])# 排序后的距离的下标sorted_dist = np.argsort(distances)class_count = {}# 取出k个最短距离for i in range(k):# 获得下标所对应的标签值sort_label = y_train[sorted_dist[i]]class_count[sort_label] = class_count.get(sort_label, 0) + 1sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)predict_result_set.append(sorted_class_count[0][0])return predict_result_setdef score(predict_result_set, y_test):count = 0for i in range(0, len(predict_result_set)):if predict_result_set[i] == y_test[i]:count += 1score = count / len(predict_result_set)return scoreif __name__ == "__main__":# 载入数据集path = 'Iris.txt'split_rate = 0.3x_train, x_test, y_train, y_test=split_data_set(path,split_rate)X = []Y = []for k in range(2, 20):result = knn(x_test, x_train, y_train, k)# print("原有标签:", y_test)# # 为了方便对比查看，此处将预测结果转化为array,可直接打印结果# print("预测结果：", np.array(result))acc = score(result, y_test)X.append(k)Y.append(acc)# print("测试集的精度：%.2f" % acc)print(X, Y)plt.xlabel('k')plt.ylabel('acc')plt.plot(X, Y)plt.show()