1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 【机器学习 - 决策树】信息增益

【机器学习 - 决策树】信息增益

时间:2021-12-26 04:46:28

相关推荐

【机器学习 - 决策树】信息增益

文章目录

一、理解信息增益二、信息增益在决策树算法中的应用参考链接

一、理解信息增益

几个概念:

熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益:熵 - 条件熵。信息增益代表了在一个条件下,信息不确定性减少的程度。

例子:

通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。X的熵减去Y条件下X的熵,就是信息增益。

具体解释:原本明天下雨的信息熵是2,条件熵是0.01(因为如果知道明天是阴天,那么下雨的概率很大,信息量少),这样相减后为1.99。在获得阴天这个信息后,下雨信息不确定性减少了1.99,不确定减少了很多,所以信息增益大。也就是说,阴天这个信息对明天下午这一推断来说非常重要。所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键,决策树就是这样来找特征的。

二、信息增益在决策树算法中的应用

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。

前面我们说,信息增益代表了在一个条件下,信息不确定性减少的程度。

那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。

参考链接

作者:卡伊粥 /question/22104055/answer/67014456作者:忆臻 /question/22104055/answer/161415527

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。