推荐专题：

1200字范文 > 机器学习实战2.1--决策树之求数据集的香农熵

机器学习实战2.1--决策树之求数据集的香农熵

时间：2020-01-26 14:38:06

相关推荐

机器学习实战2.1--决策树之求数据集的香农熵

1.什么是香农熵？

集合信息的度量方式称为香农熵或者简称为熵。

熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义。如果待分类的事务可能划分在多个分类之中，则符号的信息定义为：

其中是选择该分类的概率。

为了计算熵，我们需要计算所有类别所有可能值包含的信息期望，通过下面的式子得到：

其中n是分类的数目。

2.计算给定数据集的香农熵

代码如下：

#计算给定数据集的香农熵from math import logdef calcShannonEnt(dataSet):num=len(dataSet) #数据集的样本数量labelCount={}#创建一个数据字典，它的键是数据集最后一列的数据，集样本的类别；它的值是该分类中的样本数量#计算每种类别下的样本数量，并将其放在字典中对应的键下for featureVec in dataSet:label=featureVec[-1]#取样本中的最后一个值if label not in labelCount.keys():labelCount[label]=1else:labelCount[label]+=1#计算数据集的熵shannonEnt=0.0for key in labelCount.keys():pro=float(labelCount[key])/numshannonEnt-=pro*log(pro,2)return shannonEntdataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]print(calcShannonEnt(dataSet))

运行结果：

0.9709505944546686

3.计算给定数据集的香农熵的步骤如下：

1.计算数据集中实例的总数

2.创建一个数据字典，它的键为数据集中最后一列的数据。如果当前键不存在，则扩展字典并将当前键加入字典。每个键对应的值都记录了当前类别出现的次数。

3.分别计算所有类别出现的概率。然后根据这个概率计算香农熵。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

自己尝试使用简单数据集实现决策树代码——《机器学习实战》

2023-11-11

【10月31日】机器学习实战（二）决策树：隐形眼镜数据集

2023-06-07

机器学习实战之决策树（四）示例：预测隐形眼镜类型（含数据集）

2024-03-07

【机器学习实战】使用sklearn中的决策树对红酒数据集进行分类（Jupyter）

2019-07-24

最近发布

1200字的小小说

2024-07-22

以暖为题的作文 1200字

2024-07-22

日常生活中的素材总是充斥着无时无刻的灵感。

2024-07-22

关于旅游文化的论文 1200字

2024-07-22

寄往美国加州的一封1200字长信: 作文素材大全

2024-07-22

父爱如山永远的依靠—爸爸我爱您（1200字）

2024-07-22

1200字故事作文大全

2024-07-22

春天描写春天的作文1200字

2024-07-22

共济互助：生活中的力量与意义

2024-07-22

我的梦中国梦征文1200字

2024-07-22

推荐专题

双减1200字作文宋江小传作文1200字家教作文1200字随笔日记1200字叙事劳动自我总结1200字谈足球1200字日常随笔1200字跟党走的文章1200字七一精神1200字心得金鸟作文1200字风雪兽1200字学期计划作文1200字读书的感受1200字伟大建党历程1200字读楚汉双雄有感1200字