1200字范文 > 人工智能导论：决策树算法求解分类预测问题

人工智能导论：决策树算法求解分类预测问题

时间：2021-08-08 18:08:53

随便说点什么

最近好多好多的DDL啊啊啊…然后就搜索代码，结果在CSDN上面就怎么搜都搜不到…

于是我就发了…

应该现在搜这个的小伙伴应该都快要到考试周了吧，赶紧把实训做完，然后去好好复习吧！加油啊，祝你们考一个好成绩嗷！

距离考研的时间也就一年了，说实话其实多少还是很害怕的，再加上我自身的一些问题，现在处于一个迷失的状态已经好久好久了，对于一些事情想改变却好像根本无能为力，就挺迷茫的吧…

等考试周过去了，好好利用这个寒假调整好状态，然后冲鸭！

与诸君共勉【HUG】

注意：本博客仅供参考！！！

任务描述

本关任务：学习决策树，并基于离散的输入值和输出值数据归纳实现样例的布尔分类。

现有一些是否决定在该饭店等待餐桌吃饭的数据(x,y)，其中x是输入属性的值向量，y是单一布尔输出值，学员需要分析数据，构造一棵决策树，学习目标谓词 WillWait 的预测（ Yes 或者 No ），每一条数据属性如下：

Alternate ：附件是否有一个更合适的候选饭店（Yes 和 No）；

Bar ：饭店中是否有舒适的酒吧等待区（Yes 和 No）；

Fri/Sat ：当今天是星期五或星期六时，该属性为真 Yes ，否则为假 No；

Hungry ：是否饿了（Yes 和 No）；

Patrons ：饭店中有多少客人，取值为 None 、 Some 和 Full；

Price ：饭店价格区间；

Raining ：是否下雨（Yes 和 No）；

Reservation ：是否预定（Yes 和 No）；

Type ：饭店类型（French 、 Italian 、 Thai 和 Burger）；

WaitEstimate ：对等待时间的估计（0-10 、 10-30 、 30-60 和 >60 分钟）。

编程要求

本关的编程任务是补全右侧代码片段 build、predict、parse_data、calc_all_gain、calc_attr_gain、calc_bool_gain、get_targ和is_leaf中 Begin 至 End 中间的代码，具体要求如下：

在build中，创建一棵决策树，输入参数为根结点；

在predict中，根据归纳好的决策树预测输入样例x的谓词 WillWait 状态（Yes 或者 No）；

在_parse_data_中，解析输入矩阵数据（在 Python 里以二维列表数据存储），各参数详见代码中函数注解，然后返回信息增益最大的属性名称及其属性值列表；

在_calc_all_gain_中，计算所有样本的信息熵并返回，各参数详见代码中函数注解；

在calc_attr_gain中，计算某一特征属性的信息熵并返回，各参数详见代码中函数注解；

在_calc_bool_gain_中，计算二值随机变量的信息熵并返回，各参数详见代码中函数注解；

在_get_targ_中，计算叶子结点的决策分类标签并返回，各参数详见代码中函数注解；

在_is_leaf_中，判断该结点是否为叶子结点，若是则返回 True，否则返回 False。

测试说明

平台将自动编译补全后的代码，并生成若干组测试数据，接着根据程序的输出判断程序是否正确。

以下是平台的测试样例：

测试输入：

[[example, Alt, Bar, Fri, Hun, Pat, Price, Rain, Res, Type, Est],[x1, Yes, No, No, Yes, Some, $$$, No, Yes, French, 0-10]]

预期输出：

Yes

代码

# -*- coding: UTF-8 -*-import mathclass TreeNode:'''决策树结点数据结构成员变量：row - int 列表数据的行数，初始13col - int 列表数据的列数，初始12data - list[[]] 二维列表数据，初始数据形式在testDecisionTree.py里第0行：[第0列：example(样本名字) 中间各列(1-10)：各个特征属性名称第11列：WillW ait(目标分类) ]第1-12行：[样本名字，具体属性值，分类目标]data = [['example', 'Alt', 'Bar', 'Fri', 'Hun', 'Pat', 'Price', 'Rain', 'Res', 'Type', 'Est', 'WillW ait'],['x1','Yes', 'No', 'No', 'Yes', 'Some', '$$$', 'No', 'Yes', 'French', '0-10', 'y1=Yes' ],['x2','Yes', 'No', 'No', 'Yes', 'Full', '$','No', 'No', 'Thai', '30-60', 'y2=No' ],........ ..... ..... ......... ............['x12','Yes', 'Yes', 'Yes', 'Yes', 'Full', '$','No', 'No', 'Burger', '30-60', 'y12=Yes' ] ]targ - string 分类结果 Yes Noname - string 结点名字：特征属性名称attr - list[string] 该特征属性下的各个属性值children - list[GameNode] 该特征属性下的各个决策树子结点，与 attr 一一对应'''def __init__(self, row, col, data):self.row = rowself.col = colself.data = dataself.targ = ''# target resultself.name = ''# attribute nameself.attr = []# attribute value listself.child = [] # attribute - TreeNode Listclass DecisionTree:'''决策树成员变量：root - TreeNode 博弈树根结点成员函数：buildTree - 创建决策树predict - 预测样本分类标签_parse_data_ - 解析数据中最大信息增益的特性属性_calc_all_gain_ - 计算整个样本的信息熵_calc_attr_gain_ - 计算某一特征属性的信息熵_calc_bool_gain_ - 通用计算函数：计算二值随机变量的信息熵_get_targ_ - 获取叶子结点的决策分类标签_is_leaf_ - 判断该结点是否为叶子结点'''def __init__(self, row, col, data):self.root = TreeNode(row, col, data)def build(self, root):'''递归法创建博弈树参数：root - TreeNode 初始为决策树根结点'''

第一块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#if self._is_leaf_(root):root.targ = self._get_targ_(root)returnroot.name, root.attr = self._parse_data_(root.row, root.col, root.data)idj = [j for j in range(root.col) if root.data[0][j] == root.name][0]for attr in root.attr:row = 0col = root.col - 1data = []for i in range(root.row):if i!=0 and root.data[i][idj] != attr:continuetmp = []for j in range(root.col):if j == idj:continuetmp.append(root.data[i][j])data.append(tmp)row += 1node = TreeNode(row, col, data)root.child.append(node)for node in root.child:self.build(node)#********** End **********#

def predict(self, root, x):'''分类预测参数：root - TreeNode 决策树根结点x - [[]] 测试数据，形如：[ ['example', 'Alt', 'Bar', 'Fri', 'Hun', 'Pat', 'Price', 'Rain', 'Res', 'Type', 'Est'],['x1','Yes', 'No', 'No', 'Yes', 'Some', '$$$', 'No', 'Yes', 'French','0-10'] ]返回值：clf - string 分类标签 Yes No'''

第二块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#if self._is_leaf_(root):return root.targid_name = x[0].index(root.name)for id_attr, attr in enumerate(root.attr):if attr == x[1][id_name]:return self.predict(root.child[id_attr], x)#********** End **********#

def _parse_data_(self, row, col, data):'''解析数据：计算数据中最大信息增益的特性属性参数：row - int 列表数据的行数col - int 列表数据的列数data - list[[]] 二维列表数据，形如：第0行：[第0列：example(样本名字) 中间各列(1-10)：各个特征属性名称第11列：WillW ait(目标分类) ]第1-12行：[样本名字，具体属性值，分类目标]data = [['example', 'Alt', 'Bar', 'Fri', 'Hun', 'Pat', 'Price', 'Rain', 'Res', 'Type', 'Est', 'WillW ait'],['x1','Yes', 'No', 'No', 'Yes', 'Some', '$$$', 'No', 'Yes', 'French', '0-10', 'y1=Yes' ],['x2','Yes', 'No', 'No', 'Yes', 'Full', '$','No', 'No', 'Thai', '30-60', 'y2=No' ],........ ..... ..... ......... ............['x12','Yes', 'Yes', 'Yes', 'Yes', 'Full', '$','No', 'No', 'Burger', '30-60', 'y12=Yes' ] ]返回值：clf - string, list[] 信息增益最大的属性名称及其属性值列表'''

第三块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#max_gain = -float('inf')max_name = ''max_attr = []max_idj = -1all_gain = self._calc_all_gain_(row-1, [x[-1] for x in data[1:]])# col = 1#print('all_gain: ', all_gain)for j in range(1, col-1, 1):tmp_data = []for i in range(1, row, 1):tmp_data.append([data[i][j], data[i][-1]])tmp_gain = self._calc_attr_gain_(row-1, tmp_data) # col = 2if (all_gain - tmp_gain) > max_gain:max_gain = all_gain - tmp_gainmax_name = data[0][j]max_idj = j#print(max_gain, max_name, max_idj, tmp_gain, data[0][j], all_gain - tmp_gain)for i in range(1, row, 1):if data[i][max_idj] not in max_attr:max_attr.append(data[i][max_idj])return max_name, max_attr#********** End **********#

def _calc_all_gain_(self, row, data):'''计算整个样本的信息熵参数：row - int 列表数据的行数data - list[] 一维列表数据，形如：[分类目标]data = ['y1=Yes', 'y2=No', ........, 'y12=Yes']返回值：clf - float 信息熵'''

第四块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#dict_ = {'yes':0.0, 'no':0.0}for i in range(row):if data[i][-1] == 's': # 'Yes'dict_['yes'] += 1.0else: # 'No'dict_['no'] += 1.0sum = 0.0for key_ in dict_:sum += (1.0 * dict_[key_] / float(row)) * math.log(1.0 * dict_[key_] / float(row), 2)return -sum#********** End **********#

def _calc_attr_gain_(self, row, data):'''计算某一特征属性的信息熵参数：row - int 列表数据的行数data - list[[]] 二维列表数据（2列），形如：[[某一属性值，分类目标]][ ['0-10', 'y1=Yes' ],['30-60', 'y2=No' ],........['30-60', 'y12=Yes' ] ]返回值：clf - float 信息熵'''

第五块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#dict_ = {}for i in range(row):if data[i][0] not in dict_:dict_[data[i][0]] = [0.0, 0.0] # [yes, no]# attribute : yes or noif data[i][1][-1] == 's': # yesdict_[data[i][0]][0] += 1.0else: # nodict_[data[i][0]][1] += 1.0sum = 0.0for key_ in dict_:p = 1.0 * dict_[key_][0] / (dict_[key_][0] + dict_[key_][1])sum += (1.0 * (dict_[key_][0] + dict_[key_][1]) / float(row)) * self._calc_bool_gain_(p)return sum#********** End **********#

def _calc_bool_gain_(self, p):'''通用计算函数：计算二值随机变量的信息熵参数：p - float 二值随机变量的概率在[0, 1]之间返回值：clf - float 信息熵'''

第六块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#if p == 1 or p == 0:return 0.0return -(p * math.log(p, 2) + (1-p) * math.log((1-p), 2))#********** End **********#

def _get_targ_(self, node):'''计算叶子结点的决策分类标签参数：node - TreeNode 决策树结点返回值：clf - string 分类标签 Yes No'''

第七块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#yes = 0no = 0for i in range(1, node.row, 1):if node.data[i][-1][-1] == 's':# 'Yes'yes += 1else: # 'No'no += 1if yes > no:return 'Yes'else:return 'No'#********** End **********#

def _is_leaf_(self, node):'''判断该结点是否为叶子结点参数：node - TreeNode 决策树结点返回值：clf - bool 叶子结点True 非叶子结点False'''

第八块待补充代码块：

#请在这里补充代码，完成本关任务#********** Begin **********#if node.col == 2: # [ x* , y* ] without any attributesreturn Truetarg = node.data[-1][-1][-1] # [ x* , attr , y* ] attributesfor i in range(node.row):if i == 0:continueif node.data[i][-1][-1] != targ:return Falsereturn True#********** End **********#

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。