1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 广义线性模型(Generalized Linear Model)

广义线性模型(Generalized Linear Model)

时间:2020-07-09 01:07:31

相关推荐

广义线性模型(Generalized Linear Model)

广义线性模型

1. 广义线性模型(Generalized Linear Model)1.1 指数分布族1.2 广义线性模型建模(三个假设)2. 线性回归推导2.1 Gaussian 分布的指数分布族形式2.2 线性回归建模3. 逻辑回归推导3.1 Bernoulli分布的指数分布族形式3.2 逻辑回归建模4. Softmax回归(多分类)4.1 多项式分布的指数分布族形式4.2 softmax回归建模

1. 广义线性模型(Generalized Linear Model)

1.1 指数分布族

指数分布族具有如下形式

p(y∣η)=b(y)exp⁡(ηTT(y)−a(η)))p(y|\eta )=b(y)\exp(\eta ^T T(y)-a(\eta)))p(y∣η)=b(y)exp(ηTT(y)−a(η)))

其中:

ηT\eta ^TηT为自然参数T(y)T(y)T(y)为充分统计量,通常T(y)=yT(y)=yT(y)=ya(η)a(\eta)a(η)为对数分配函数,使得概率分布积分为1的条件得到满足。

a(η)=ln⁡(∫xb(y)exp⁡(ηTT(y)dx)a(\eta)=\ln(\int_x b(y)\exp(\eta^T T(y)\mathrm{d}x)a(η)=ln(∫x​b(y)exp(ηTT(y)dx)

伯努利(Bernoulli)分布、多项式(Multinomial)分布、泊松(Poisson)分布、高斯(Gaussian)分布、gamma分布、β\betaβ分布等均属于指数分布族。

1.2 广义线性模型建模(三个假设)

y∣x;θ∼ExponentialFamily(η)y|x;\theta\sim ExponentialFamily(\eta)y∣x;θ∼ExponentialFamily(η),及yyy的条件概率属于某个指数分布族。hθ(x)=E[T(y)∣x]h_{\theta}(x)=E[T(y)|x]hθ​(x)=E[T(y)∣x],目标函数为充分统计量的条件期望。

η\etaη以不同的连接函数与其它概率分布函数中的参数发生联系,从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而扩大了线性模型可解决的问题。η=θTx\eta=\theta^T xη=θTx,由于是线性模型,自然参数=参数与xxx的线性组合。

2. 线性回归推导

2.1 Gaussian 分布的指数分布族形式

在线性回归中,σ\sigmaσ对于模型参数θ\thetaθ的选择没有影响,为了推导方便我们将其设为1:

p(y∣μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)\begin{aligned} p(y|\mu)&=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2)\\ &=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)\exp(\mu y-\frac{1}{2}\mu ^2) \end{aligned}p(y∣μ)​=2π​1​exp(−21​(y−μ)2)=2π​1​exp(−21​y2)exp(μy−21​μ2)​

得到对应的参数

η=μT(y)=ya(η)=12μ2=12η2b(y)=12πexp⁡(−12y2)\eta =\mu\\ T(y)=y\\ a(\eta)=\frac{1}{2}\mu ^2=\frac{1}{2}\eta ^2\\ b(y)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}y^2)η=μT(y)=ya(η)=21​μ2=21​η2b(y)=2π​1​exp(−21​y2)

2.2 线性回归建模

假设1:y∣x;θ∼N(μ,σ)y|x;\theta\sim N(\mu,\sigma)y∣x;θ∼N(μ,σ)假设3:η=θTx\eta=\theta^T xη=θTx假设2:

hθ(x)=E[T(y)∣x]=μ=η=θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\mu\\ &=\eta\\ &=\theta^T x \end{aligned}hθ​(x)​=E[T(y)∣x]=μ=η=θTx​

3. 逻辑回归推导

3.1 Bernoulli分布的指数分布族形式

对于逻辑回归,有p(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕp(y=1;\phi)=\phi\\ p(y=0;\phi)=1-\phip(y=1;ϕ)=ϕp(y=0;ϕ)=1−ϕ

即p(y∣ϕ)=ϕy(1−ϕ)1−y=exp⁡(ylog⁡(ϕ)+(1−y)log⁡(1−ϕ))=exp⁡(ylog⁡(ϕ1−ϕ)+log⁡(1−ϕ))\begin{aligned} p(y|\phi)&=\phi^y (1-\phi)^{1-y}\\ &=\exp(y\log(\phi)+(1-y)\log(1-\phi))\\ &=\exp(y\log(\frac{\phi}{1-\phi})+\log(1-\phi)) \end{aligned}p(y∣ϕ)​=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(1−ϕϕ​)+log(1−ϕ))​

得到对应的参数

η=log⁡(ϕ1−ϕ)→ϕ=11+e−ηT(y)=yb(y)=1a(η)=−log⁡(1−ϕ)=log⁡(1+eη)\eta =\log(\frac{\phi}{1-\phi})\rightarrow \phi=\frac{1}{1+e^{-\eta}}\\ T(y)=y\\ b(y)=1\\ \begin{aligned} a(\eta)&=-\log(1-\phi)\\ &=\log(1+e^{\eta})\\ \end{aligned}η=log(1−ϕϕ​)→ϕ=1+e−η1​T(y)=yb(y)=1a(η)​=−log(1−ϕ)=log(1+eη)​

3.2 逻辑回归建模

假设1:y∣x;θ∼Bernoulli(ϕ)y|x;\theta\sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)假设3:η=θTx\eta=\theta^T xη=θTx假设2:

hθ(x)=E[T(y)∣x]=ϕ=11+e−η=11+e−θTx\begin{aligned} h_{\theta}(x)&=E[T(y)|x]\\ &=\phi\\ &=\frac{1}{1+e^{-\eta}}\\ &=\frac{1}{1+e^{-\theta^{T}x}} \end{aligned}hθ​(x)​=E[T(y)∣x]=ϕ=1+e−η1​=1+e−θTx1​​

4. Softmax回归(多分类)

4.1 多项式分布的指数分布族形式

yyy可能有多个分类y∈{1,2,⋯,k}y\in \left \{ 1,2,\cdots,k \right \}y∈{1,2,⋯,k},每种分类对应概率:ϕ1,ϕ2,⋯,ϕk\phi_1,\phi_2,\cdots ,\phi_kϕ1​,ϕ2​,⋯,ϕk​,但是,由于∑i=1kϕi=1\sum_{i=1}^{k}\phi_i=1i=1∑k​ϕi​=1, 所以一般 用k−1k-1k−1个参数ϕ1,ϕ2,⋯,ϕk−1\phi_1,\phi_2,\cdots ,\phi_{k-1}ϕ1​,ϕ2​,⋯,ϕk−1​,其中:ϕi=p(y=i∣ϕ),p(y=k;ϕ)=1−∑i=1k−1ϕi\phi_i=p(y=i|\phi),p(y=k;\phi)=1-\sum_{i=1}^{k-1} \phi_iϕi​=p(y=i∣ϕ),p(y=k;ϕ)=1−i=1∑k−1​ϕi​

定义T(y)∈Rk−1T(y)\in R^{k-1}T(y)∈Rk−1,

T(1)=[100⋯0],T(2)=[010⋯0],⋯,T(k−1)=[000⋯1],T(k)=[000⋯0]T(1)=\begin{bmatrix}1\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}, T(2)=\begin{bmatrix}0\\ 1\\ 0\\ \cdots \\ 0\end{bmatrix}, \cdots , T(k-1)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 1\end{bmatrix}, T(k)=\begin{bmatrix}0\\ 0\\ 0\\ \cdots \\ 0\end{bmatrix}T(1)=⎣⎢⎢⎢⎢⎡​100⋯0​⎦⎥⎥⎥⎥⎤​,T(2)=⎣⎢⎢⎢⎢⎡​010⋯0​⎦⎥⎥⎥⎥⎤​,⋯,T(k−1)=⎣⎢⎢⎢⎢⎡​000⋯1​⎦⎥⎥⎥⎥⎤​,T(k)=⎣⎢⎢⎢⎢⎡​000⋯0​⎦⎥⎥⎥⎥⎤​

引进函数{⋅}\left \{ \cdot \right \}{⋅}

{True}=1,{False}=0E[T(y)i]=p(y=i)=ϕi\left \{ True \right \}=1,\left \{ False \right \}=0\\ E[T(y)_i]=p(y=i)=\phi_i{True}=1,{False}=0E[T(y)i​]=p(y=i)=ϕi​

对应的概率分布为

p(y;ϕ)=ϕ1{y=1}ϕ2{y=2}⋯ϕk{y=k}=ϕ1{y=1}ϕ2{y=2}⋯ϕk1−∑i=1k−1{y=i}=ϕ1T(y)1ϕ2T(y)2⋯ϕk1−∑i=1k−1T(y)i=exp⁡(T(y)1log⁡(ϕ1)+T(y)2log⁡(ϕ2)+⋯+(1−∑i=1k−1T(y)i)log⁡(ϕk))=exp⁡(T(y)1log⁡(ϕ1ϕk)+T(y)2log⁡(ϕ2ϕk)+⋯+T(y)k−1log⁡(ϕk−1ϕk)+log⁡(ϕk))\begin{aligned} p(y;\phi)&=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{\left \{ y=k \right \}}\\ &=\phi_1^{\left \{ y=1 \right \}}\phi_2^{\left \{ y=2 \right \}}\cdots \phi_k^{1-\sum_{i=1}^{k-1}\left \{ y=i \right \}}\\ &=\phi_1^{T(y)_1}\phi_2^{T(y)_2}\cdots \phi_k^{1-\sum_{i=1}^{k-1}T(y)_i}\\ &=\exp(T(y)_1\log(\phi_1)+T(y)_2\log(\phi_2)+\cdots+(1-\sum_{i=1}^{k-1}T(y)_i)\log(\phi_k))\\ &=\exp(T(y)_1\log(\frac{\phi_1}{\phi_k})+T(y)_2\log(\frac{\phi_2}{\phi_k})+\cdots+T(y)_{k-1}\log(\frac{\phi_{k-1}}{\phi_k})+\log(\phi_k)) \end{aligned}p(y;ϕ)​=ϕ1{y=1}​ϕ2{y=2}​⋯ϕk{y=k}​=ϕ1{y=1}​ϕ2{y=2}​⋯ϕk1−∑i=1k−1​{y=i}​=ϕ1T(y)1​​ϕ2T(y)2​​⋯ϕk1−∑i=1k−1​T(y)i​​=exp(T(y)1​log(ϕ1​)+T(y)2​log(ϕ2​)+⋯+(1−i=1∑k−1​T(y)i​)log(ϕk​))=exp(T(y)1​log(ϕk​ϕ1​​)+T(y)2​log(ϕk​ϕ2​​)+⋯+T(y)k−1​log(ϕk​ϕk−1​​)+log(ϕk​))​

对应的指数分布族参数为

b(y)=1a(η)=−log⁡(ϕk)η=[log⁡(ϕ1ϕk)log⁡(ϕ2ϕk)⋯log⁡(ϕk−1ϕk)]b(y)=1\\ a(\eta)=-\log(\phi_k)\\ \eta=\begin{bmatrix} \log(\frac{\phi_1}{\phi_k})\\ \log(\frac{\phi_2}{\phi_k})\\ \cdots\\ \log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix}b(y)=1a(η)=−log(ϕk​)η=⎣⎢⎢⎢⎡​log(ϕk​ϕ1​​)log(ϕk​ϕ2​​)⋯log(ϕk​ϕk−1​​)​⎦⎥⎥⎥⎤​

即ηi=log⁡(ϕiϕk)ϕkeηi=ϕiϕk∑i=1keηi=∑i=1kϕi=1\eta_i=\log(\frac{\phi_i}{\phi_k})\\ \phi_k e^{\eta_i}=\phi_i\\ \phi_k\sum_{i=1}^{k}e^{\eta_i}=\sum_{i=1}^{k}\phi_i=1ηi​=log(ϕk​ϕi​​)ϕk​eηi​=ϕi​ϕk​i=1∑k​eηi​=i=1∑k​ϕi​=1

可以得出ϕi=eηi∑j=1keηjϕk=1∑j=1keηj\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ \phi_k=\frac{1}{\sum_{j=1}^{k}e^{\eta_j}}ϕi​=∑j=1k​eηj​eηi​​ϕk​=∑j=1k​eηj​1​

4.2 softmax回归建模

假设1:y∣x;θ∼Multinomial(ϕ)y|x;\theta\sim Multinomial(\phi)y∣x;θ∼Multinomial(ϕ)假设3:ηi=θiTxp(y=i∣x;θ)=ϕi=eηi∑j=1keηj=eθiTx∑j=1keθjTx\eta_i=\theta_i^Tx\\ \begin{aligned} p(y=i|x;\theta)&=\phi_i\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}\\ &=\frac{e^{\theta_i^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{aligned}ηi​=θiT​xp(y=i∣x;θ)​=ϕi​=∑j=1k​eηj​eηi​​=∑j=1k​eθjT​xeθiT​x​​假设2:

hθ(x)=E[T(y)∣x;θ]=E[{y=1}{y=2}⋯{y=k−1}x;θ]=[ϕ1ϕ2⋯ϕk−1]=[eθ1Tx∑j=1keθjTxeθ2Tx∑j=1keθjTx⋯eθk−1Tx∑j=1keθjTx]\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\ &=E\begin{bmatrix} \begin{array}{c|} \left \{ y=1 \right \}\\ \left \{ y=2 \right \}\\ \cdots\\ \left \{ y=k-1 \right \} \end{array} x;\theta \end{bmatrix}\\ &=\begin{bmatrix} \phi_1\\ \phi_2\\ \cdots\\ \phi_{k-1} \end{bmatrix}\\ &=\begin{bmatrix} \frac{e^{\theta_1^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \frac{e^{\theta_2^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}}\\ \cdots\\ \frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k}e^{\theta_j^T x}} \end{bmatrix} \end{aligned}hθ​(x)​=E[T(y)∣x;θ]=E⎣⎢⎢⎡​{y=1}{y=2}⋯{y=k−1}​x;θ​⎦⎥⎥⎤​=⎣⎢⎢⎡​ϕ1​ϕ2​⋯ϕk−1​​⎦⎥⎥⎤​=⎣⎢⎢⎢⎢⎢⎢⎢⎡​∑j=1k​eθjT​xeθ1T​x​∑j=1k​eθjT​xeθ2T​x​⋯∑j=1k​eθjT​xeθk−1T​x​​⎦⎥⎥⎥⎥⎥⎥⎥⎤​​

即拟合函数的输出结果是 每一种分类对应的概率所组成的向量,接下了只需要根据最大似然法拟合参数,使用梯度下降法求解即可 。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。