1200字范文 > 广义线性模型（Generalized Linear Model）

广义线性模型（Generalized Linear Model）

时间：2020-07-09 01:07:31

广义线性模型

1. 广义线性模型（Generalized Linear Model）1.1 指数分布族1.2 广义线性模型建模（三个假设）2. 线性回归推导2.1 Gaussian 分布的指数分布族形式2.2 线性回归建模3. 逻辑回归推导3.1 Bernoulli分布的指数分布族形式3.2 逻辑回归建模4. Softmax回归（多分类）4.1 多项式分布的指数分布族形式4.2 softmax回归建模

1. 广义线性模型（Generalized Linear Model）

1.1 指数分布族

指数分布族具有如下形式

p(y∣η)=b(y)exp⁡(ηTT(y)−a(η)))p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta)))p(y∣η)=b(y)exp(ηTT(y)−a(η)))

其中：

ηT\eta ^TηT为自然参数T(y)T(y)T(y)为充分统计量，通常T(y)=yT(y)=yT(y)=ya(η)a(\eta)a(η)为对数分配函数，使得概率分布积分为1的条件得到满足。

a(η)=ln⁡(∫xb(y)exp⁡(ηTT(y)dx)a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x)a(η)=ln(∫xb(y)exp(ηTT(y)dx)

伯努利（Bernoulli）分布、多项式（Multinomial）分布、泊松（Poisson）分布、高斯（Gaussian）分布、gamma分布、β\betaβ分布等均属于指数分布族。

1.2 广义线性模型建模（三个假设）

y∣x;θ∼ExponentialFamily(η)y|x;\theta\sim ExponentialFamily(\eta)y∣x;θ∼ExponentialFamily(η)，及yyy的条件概率属于某个指数分布族。hθ(x)=E[T(y)∣x]h_{\theta}(x)=E[T(y)|x]hθ(x)=E[T(y)∣x]，目标函数为充分统计量的条件期望。

η\etaη以不同的连接函数与其它概率分布函数中的参数发生联系，从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员（每个成员正好有一个这样的联系）都作为线性模型的扩展，通过各种非线性的连接函数将线性函数映射到其他空间，从而扩大了线性模型可解决的问题。η=θTx\eta=\theta^T xη=θTx，由于是线性模型，自然参数=参数与xxx的线性组合。

2. 线性回归推导

2.1 Gaussian 分布的指数分布族形式

在线性回归中，σ\sigmaσ对于模型参数θ\thetaθ的选择没有影响，为了推导方便我们将其设为1：

p(y∣μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)\begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned}p(y∣μ)=2π1exp(−21(y−μ)2)=2π1exp(−21y2)exp(μy−21μ2)

得到对应的参数

η=μT(y)=ya(η)=12μ2=12η2b(y)=12πexp⁡(−12y2)\eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)η=μT(y)=ya(η)=21μ2=21η2b(y)=2π1exp(−21y2)

2.2 线性回归建模

假设1：y∣x;θ∼N(μ,σ)y|x;\theta\sim N(\mu,\sigma)y∣x;θ∼N(μ,σ)假设3：η=θTx\eta=\theta^T xη=θTx假设2：

hθ(x)=E[T(y)∣x]=μ=η=θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned}hθ(x)=E[T(y)∣x]=μ=η=θTx

3. 逻辑回归推导

3.1 Bernoulli分布的指数分布族形式

对于逻辑回归，有p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕp(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phip(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ

即p(y∣ϕ)=ϕy(1−ϕ)1−y=exp⁡(ylog⁡(ϕ)+(1−y)log⁡(1−ϕ))=exp⁡(ylog⁡(ϕ1−ϕ)+log⁡(1−ϕ))\begin{aligned} p(y|\phi)&=\phi^y (1-\phi)^{1-y}\\ &=\exp(y\log(\phi)+(1-y)\log(1-\phi))\\ &=\exp(y\log(\frac{\phi}{1-\phi})+\log(1-\phi)) \end{aligned}p(y∣ϕ)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ)+log(1−ϕ))

得到对应的参数

η=log⁡(ϕ1−ϕ)→ϕ=11+e−ηT(y)=yb(y)=1a(η)=−log⁡(1−ϕ)=log⁡(1+eη)\eta =\log(\frac{\phi}{1-\phi})\rightarrow \phi=\frac{1}{1+e^{-\eta}}\\ T(y)=y\\ b(y)=1\\ \begin{aligned} a(\eta)&=-\log(1-\phi)\\ &=\log(1+e^{\eta})\\ \end{aligned}η=log(1−ϕϕ)→ϕ=1+e−η1T(y)=yb(y)=1a(η)=−log(1−ϕ)=log(1+eη)

3.2 逻辑回归建模

假设1：y∣x;θ∼Bernoulli(ϕ)y|x;\theta\sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)假设3：η=θTx\eta=\theta^T xη=θTx假设2：

hθ(x)=E[T(y)∣x]=ϕ=11+e−η=11+e−θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\phi\\ &=\frac{1}{1+e^{-\eta}}\\ &=\frac{1}{1+e^{-\theta^{T}x}} \end{aligned}hθ(x)=E[T(y)∣x]=ϕ=1+e−η1=1+e−θTx1

4. Softmax回归（多分类）

4.1 多项式分布的指数分布族形式

yyy可能有多个分类y∈{1,2,⋯,k}y\in \left \{ 1,2,\cdots,k \right \}y∈{1,2,⋯,k}，每种分类对应概率：ϕ1,ϕ2,⋯,ϕk\phi_1,\phi_2,\cdots ,\phi_kϕ1,ϕ2,⋯,ϕk，但是，由于∑i=1kϕi=1\sum_{i=1}^{k}\phi_i=1i=1∑kϕi=1, 所以一般用k−1k-1k−1个参数ϕ1,ϕ2,⋯,ϕk−1\phi_1,\phi_2,\cdots ,\phi_{k-1}ϕ1,ϕ2,⋯,ϕk−1，其中：ϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−∑i=1k−1ϕi\phi_i=p(y=i|\phi),p(y=k;\phi)=1-\sum_{i=1}^{k-1} \phi_iϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−i=1∑k−1ϕi

定义T(y)∈Rk−1T(y)\in R^{k-1}T(y)∈Rk−1，

T(1)=[100⋯0],T(2)=[010⋯0],⋯,T(k−1)=[000⋯1],T(k)=[000⋯0]T(1)=\begin{bmatrix}1\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}, T(2)=\begin{bmatrix}0\\ 1\\ 0\\ \cdots \\ 0\end{bmatrix}, \cdots , T(k-1)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 1\end{bmatrix}, T(k)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}T(1)=⎣⎢⎢⎢⎢⎡100⋯0⎦⎥⎥⎥⎥⎤,T(2)=⎣⎢⎢⎢⎢⎡010⋯0⎦⎥⎥⎥⎥⎤,⋯,T(k−1)=⎣⎢⎢⎢⎢⎡000⋯1⎦⎥⎥⎥⎥⎤,T(k)=⎣⎢⎢⎢⎢⎡000⋯0⎦⎥⎥⎥⎥⎤

引进函数{⋅}\left \{ \cdot \right \}{⋅}

{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi\left \{ True \right \}=1,\left \{ False \right \}=0\\ E[T(y)_i]=p(y=i)=\phi_i{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi

对应的概率分布为

p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp⁡(T(y)1log⁡(ϕ1)+T(y)2log⁡(ϕ2)+⋯+(1−∑i=1k−1T(y)i)log⁡(ϕk))=exp⁡(T(y)1log⁡(ϕ1ϕk)+T(y)2log⁡(ϕ2ϕk)+⋯+T(y)k−1log⁡(ϕk−1ϕk)+log⁡(ϕk))\begin{aligned} p(y;\phi)&=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{\left \{ y=k \right \}}\\ &=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{1-\sum_{i=1}^{k-1}\left \{ y=i \right \}}\\ &=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots \phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\\ &=\exp(T(y)_1\log(\phi_1)+T(y)_2\log(\phi_2)+\cdots+(1-\sum_{i=1}^{k-1}T(y)_i)\log(\phi_k))\\ &=\exp(T(y)_1\log(\frac{\phi_1}{\phi_k})+T(y)_2\log(\frac{\phi_2}{\phi_k})+\cdots+T(y)_{k-1}\log(\frac{\phi_{k-1}}{\phi_k})+\log(\phi_k)) \end{aligned}p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp(T(y)1log(ϕ1)+T(y)2log(ϕ2)+⋯+(1−i=1∑k−1T(y)i)log(ϕk))=exp(T(y)1log(ϕkϕ1)+T(y)2log(ϕkϕ2)+⋯+T(y)k−1log(ϕkϕk−1)+log(ϕk))

对应的指数分布族参数为

b(y)=1a(η)=−log⁡(ϕk)η=[log⁡(ϕ1ϕk)log⁡(ϕ2ϕk)⋯log⁡(ϕk−1ϕk)]b(y)=1\\ a(\eta)=-\log(\phi_k)\\ \eta=\begin{bmatrix} \log(\frac{\phi_1}{\phi_k})\\ \log(\frac{\phi_2}{\phi_k})\\ \cdots\\ \log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix}b(y)=1a(η)=−log(ϕk)η=⎣⎢⎢⎢⎡log(ϕkϕ1)log(ϕkϕ2)⋯log(ϕkϕk−1)⎦⎥⎥⎥⎤

即ηi=log⁡(ϕiϕk)ϕkeηi=ϕiϕk∑i=1keηi=∑i=1kϕi=1\eta_i=\log(\frac{\phi_i}{\phi_k})\\ \phi_k e^{\eta_i}=\phi_i\\ \phi_k\sum_{i=1}^{k}e^{\eta_i}=\sum_{i=1}^{k}\phi_i=1ηi=log(ϕkϕi)ϕkeηi=ϕiϕki=1∑keηi=i=1∑kϕi=1

可以得出ϕi=eηi∑j=1keηjϕk=1∑j=1keηj\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ \phi_k=\frac{1}{\sum_{j=1}^{k}e^{\eta_j}}ϕi=∑j=1keηjeηiϕk=∑j=1keηj1

4.2 softmax回归建模

假设1：y∣x;θ∼Multinomial(ϕ)y|x;\theta\sim Multinomial(\phi)y∣x;θ∼Multinomial(ϕ)假设3：ηi=θiTxp(y=i∣x;θ)=ϕi=eηi∑j=1keηj=eθiTx∑j=1keθjTx\eta_i=\theta_i^Tx\\ \begin{aligned} p(y=i|x;\theta)&=\phi_i\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ &=\frac{e^{\theta_i^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{aligned}ηi=θiTxp(y=i∣x;θ)=ϕi=∑j=1keηjeηi=∑j=1keθjTxeθiTx假设2：

hθ(x)=E[T(y)∣x;θ]=E[{y=1}{y=2}⋯{y=k−1}x;θ]=[ϕ1ϕ2⋯ϕk−1]=[eθ1Tx∑j=1keθjTxeθ2Tx∑j=1keθjTx⋯eθk−1Tx∑j=1keθjTx]\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\ &=E\begin{bmatrix} \begin{array}{c|} \left \{ y=1 \right \}\\ \left \{ y=2 \right \}\\ \cdots\\ \left \{ y=k-1 \right \} \end{array} x;\theta \end{bmatrix}\\ &=\begin{bmatrix} \phi_1\\ \phi_2\\ \cdots\\ \phi_{k-1} \end{bmatrix}\\ &=\begin{bmatrix} \frac{e^{\theta_1^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \frac{e^{\theta_2^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \cdots\\ \frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{bmatrix} \end{aligned}hθ(x)=E[T(y)∣x;θ]=E⎣⎢⎢⎡{y=1}{y=2}⋯{y=k−1}x;θ⎦⎥⎥⎤=⎣⎢⎢⎡ϕ1ϕ2⋯ϕk−1⎦⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎡∑j=1keθjTxeθ1Tx∑j=1keθjTxeθ2Tx⋯∑j=1keθjTxeθk−1Tx⎦⎥⎥⎥⎥⎥⎥⎥⎤

即拟合函数的输出结果是每一种分类对应的概率所组成的向量，接下了只需要根据最大似然法拟合参数，使用梯度下降法求解即可。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。