1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 每天5分钟机器学习:熵 信息增益 信息增益比 基尼系数是什么?

每天5分钟机器学习:熵 信息增益 信息增益比 基尼系数是什么?

时间:2023-07-27 11:40:33

相关推荐

每天5分钟机器学习:熵 信息增益 信息增益比 基尼系数是什么?

本文重点

要想想学习的了解决策树算法,我们需要补充一些数学的知识,前面的课程中我们介绍了决策树算法,我们摘掉构造一棵决策树算法的关键在于特征的选择,而要想选择一个好的特征是必须要有一定的标准的,而熵,信息增益、信息增益比、基尼系数等将是决策决定因素,所以本文将对这些数学概念进行详细的介绍,学习完本文课程之后,整个决策树的数学知识我们就掌握了,决策树算法将会变得非常的简单。

特征选择

在数据集中通常每个样本的特征个数都会远远的超过两个,所以当面临多个特征选择的时候,我们需要通过特征选择来确定当前使用哪个特征来划分。信息增益、信息增益比,基尼系数是决定特征选择的关键所在。

熵指的是一个物体内部的混乱程度,越混乱熵越大,或者说变量的不确定性越大,类别越多,熵就越大。在热力学中,熵表示体系的混乱程度,在概率统计学中,熵可以用来表示随机变量的不确定性的度量。

现在有两个事件,一个事件X,一个时间Y,这两个事件是相互独立的,所以会有下面的结论:

p(XY)=p(X)*P(Y)

Log(XY)=Log(X)+Log(Y)

接下来我们定义H(X),H(Y)分别表示事件X,Y发生的不确定性,所以一个事件的发生概率p很大,那么这件事不确定性H就会很小,同理,如果一个事件的发生概率p很小,那么这件事情的不确定性H就会很大,这就是它们之间的关系。

假设随机变量X的可能取值有x1,x2, ... , xn,对于每一个可能的取值xi,其概率 P(X=xi) = pi , ( i = 1,2, ... , n),因此随机变量X的熵:

熵的计算公式

如公式所示,我们可以看到熵只依赖于X的分布,而与X的取值无关,所以也可将X的熵记作H(p),即:

当随机变量只取两个值,例如1,0时,即X的分布为

此时它的熵为:

如果我们画出图像来我们可以看到:

当p=0或p=1时H(p)=0,随机变量完全没有不确定性。当p=0.5时,H(p)=1,熵取 值最大,随机变量不确定性最大。

熵指的是一个物体内部的混乱程度,类别越多越混乱,越混乱熵越大。下面我们通过一个例子来看一下:

有两个集合,集合A(1,2,3,4,5),集合B(1,1,1,1,1),则集合A有五个类别,但是结合B只有一个类别,所以集合A更加混乱,所以集合A的熵比集合B大。从熵的公式角度来说:

首先概率pi的值肯定小于等于1,所以ln(pi)肯定是负的或0,我们试着想象一下ln这条曲线,可以知道pi越小ln(pi)越小

集合b中只有一个类别,所以pi等于1,而ln(pi)等于0,所以集合b的熵为0

集合a中有五个类别,每个类别的pi分别为五分之一,然后ln(pi)肯定为负,pi*ln(pi)为负,然后这五个类别的piln(pi)加起来还为负,最后前面有一个负号,就变成正了,所以集合a的熵肯定大于0

这就证明了,集合a比集合b混乱,集合a的熵比集合b的熵大。

经验条件熵

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

什么是经验条件熵呢?就是当前样本按照某个特征分割之后的熵,假如按照特征A来分割数据集D,那么此时的条件熵表示为H(D|A):

如上所示的公式就是样本D按照特征A进行分割的熵,分割了n份,其中Di表示第i份样本的数量。K表示类别,其中Dik表示第i份中第k个类别的数量(类别指的是样本的标签)。

信息增益

信息增益:以某特征划分数据集前后的熵的差值( 在熵的理解那部分提到了,熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征A对于样本集合D划分效果的好坏。)

通过数据集D的熵H(D)减去特征A对于数据集D的经验条件熵H(D|A)就是信息增益,信息增益越大表示通过这个特征进行分割的效果越好。

但是信息增益存在缺点:信息增益偏向取值较多的特征。原因是:当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较偏向取值较多的特征,为了解决这个办法我们使用信息增益率。

信息增益比

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。