1200字范文 > 信息论常见概念：熵互信息 KL散度和信息增益

信息论常见概念：熵互信息 KL散度和信息增益

时间：2023-09-18 00:40:26

文章目录

信息论在机器学习中的常见概念1. 信息量2. 熵3. 联合熵4. 条件熵5. 相对熵6. 互信息7. 信息增益公式与推导

信息论在机器学习中的常见概念

信息的不确定度表示。

1. 信息量

定义：消除事件不确定性所需的信息量，单位：比特（bit）。

如果事件x发生，P(x) 是事件x发生的概率，P(x)可以为“事件x发生”所提供的信息量为h(x)。

h(x)=−log2P(x)h(x) = - log_2P(x)h(x)=−log2P(x)

2. 熵

熵：发生的事件中包含的信息平均值，是不确定性的度量，不确定性越大则熵越大。

H(X)=−∑inP(xi)h(xi)H(X) = -\sum_i^nP(x_i)h(x_i)H(X)=−i∑nP(xi)h(xi)

H(X)=−∑inP(xi)log2P(xi)H(X) = -\sum_i^nP(x_i)log_2P(x_i)H(X)=−i∑nP(xi)log2P(xi)

3. 联合熵

定义：度量二维随机变量的不确定性

H(X,Y)=−∑i∑jP(xi,yi)log2P(xi,yi)H(X,Y) = - \sum_i\sum_jP(x_i,y_i)log_2P(x_i,y_i)H(X,Y)=−i∑j∑P(xi,yi)log2P(xi,yi)

4. 条件熵

定义：在X的条件下求Y的不确定性。H(Y|X)表示已知X，求Y的平均不确定性。

H(Y∣X)=−∑i∑jP(xi,yi)log2P(yi∣xi)H(Y|X) = -\sum_i\sum_jP(x_i,y_i)log_2P(y_i|x_i)H(Y∣X)=−i∑j∑P(xi,yi)log2P(yi∣xi)

条件熵和联合熵的关系：

H(X,Y)=H(X)+H(Y∣X)H(X,Y) =H(X)+H(Y|X)H(X,Y)=H(X)+H(Y∣X)

H(Y∣X)=H(X,Y)−H(X)H(Y|X) =H(X,Y)-H(X)H(Y∣X)=H(X,Y)−H(X)

5. 相对熵

别名：KL散度（Kullback–Leibler divergence，KLD），信息散度（information divergence），信息增益（information gain）

功能：主要用来衡量两个分布的相似度（相对熵是衡量同一个变量的两个一维分布之间的相似性）。假设连续随机变量x，真是的概率分布为P(x)，模型得到的近似分布为Q(x)。

KL(P∣∣Q)=−∑iP(xi)lnQ(xi)−(−∑iP(xi)lnP(xi))KL(P||Q) = -\sum_iP(x_i)lnQ(x_i) - (-\sum_iP(x_i)lnP(xi))KL(P∣∣Q)=−i∑P(xi)lnQ(xi)−(−i∑P(xi)lnP(xi))

KL(P∣∣Q)=∑iP(xi)lnP(xi)Q(xi)KL(P||Q) = \sum_iP(x_i)ln\frac{P(x_i)}{Q(x_i) }KL(P∣∣Q)=i∑P(xi)lnQ(xi)P(xi)

KL(P∣∣Q)=H(P,Q)−H(P)KL(P||Q) =H(P,Q) -H(P)KL(P∣∣Q)=H(P,Q)−H(P)

H(P,Q)H(P,Q)H(P,Q)：交叉熵（注意：H(X,Y)和它的区别；X，Y是随机变量，而P、Q是概率分布）

6. 互信息

互信息：是用来衡量两个相同的一维分布变量之间的独立性。

I(X,Y)=KL(P(x,y)∣∣P(x)P(y))I(X,Y)= KL(P(x,y)||P(x)P(y))I(X,Y)=KL(P(x,y)∣∣P(x)P(y))

I(X,Y)=∑iP(xi,yi)lnP(xi,yi)P(xi)P(yi)I(X,Y)= \sum_iP(x_i,y_i)ln\frac{P(x_i,y_i)}{P(x_i)P(y_i)}I(X,Y)=i∑P(xi,yi)lnP(xi)P(yi)P(xi,yi)

7. 信息增益

假设系统原有的熵为 H(X)，后来引入了特征 T，在特征 T 的情况下，系统的混乱度下降，熵减小为 H(X|T)，那么特征 T 给系统带来的信息增益为： X特征下的熵 - 在特征T条件下的X的熵。

IG(T)=H(X)−H(X∣T)IG(T) = H(X) - H(X|T)IG(T)=H(X)−H(X∣T)

信息增益率：信息增益 / T的分离信息

R(X,T)=IG(T)splitinfo(T)R(X,T) = \frac{IG(T)}{splitinfo(T)}R(X,T)=splitinfo(T)IG(T)

公式与推导

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

信息论常见概念：熵 互信息 KL散度和信息增益

文章目录

信息论在机器学习中的常见概念

1. 信息量

2. 熵

3. 联合熵

4. 条件熵

5. 相对熵

6. 互信息

7. 信息增益

公式与推导

信息论常见概念：熵互信息 KL散度和信息增益