1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 矩阵的特征值 特征向量 特征值分解 奇异值分解之间的关系

矩阵的特征值 特征向量 特征值分解 奇异值分解之间的关系

时间:2019-02-10 02:00:08

相关推荐

矩阵的特征值 特征向量 特征值分解 奇异值分解之间的关系

可逆矩阵

A⋅A−1=A−1⋅A=EA\cdot A^{-1}=A^{-1}\cdot A = EA⋅A−1=A−1⋅A=E

矩阵的几何意义是对一组向量进行变换,包括方向和模长的变化。而逆矩阵表示对其进行逆变化。

矩阵的特征值的和等于矩阵的迹

为什么特征值之和会等于矩阵的迹?

高次方程的韦达定理

正交矩阵

正交矩阵满足

AT⋅A=EA^{T}\cdot A = EAT⋅A=E,可得AT=A−1A^{T}=A^{-1}AT=A−1,因此

AT⋅A=A⋅AT=EA^{T}\cdot A=A\cdot A^{T}=EAT⋅A=A⋅AT=E

正交矩阵的列向量都是单位向量,且两两正交。对于行向量也是如此。

例如正交矩阵:

[cos(θ)−sin(θ)sin(θ)cos(θ)]\left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{matrix} \right] [cos(θ)sin(θ)​−sin(θ)cos(θ)​]

其转置矩阵,同时也是其逆阵

[cos(θ)−sin(θ)−sin(θ)cos(θ)]\left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ -sin(\theta) & cos(\theta) \end{matrix} \right] [cos(θ)−sin(θ)​−sin(θ)cos(θ)​]

对于一个方阵AAA,若其列向量相互垂直且模长为1,则AAA为正交阵

实对称矩阵和正定矩阵

首先看正定矩阵的定义:

对于任意非零的向量xxx,和一个对称矩阵AAA,如果有

xTAx>0x^{T}Ax>0 xTAx>0

则称矩阵AAA是正定矩阵。正定矩阵的含义是:一个向量经过矩阵AAA的变换后,和自身的点积大于0。也就是说,正定矩阵对应的变换不会把变换后的向量变到向量本身所垂直的平面的另一侧。具体到2维的例子就是,怎么变,变换后的向量和自身的夹角都不会大于 90°90\degree90°

正定矩阵一定是对称阵对称阵不一定是正定矩阵,例如0矩阵对称阵AAA为正定的充分必要条件是:A的特征值全为正协方差阵是实对称矩阵,可以证明其为半正定矩阵

关于正定矩阵是不是一定对称的问题

向量组等价

两个向量组可以互相线性表出,即是第一个向量组中的每个向量都能表示成第二个向量组的向量的线性组合,且第二个向量组中的每个向量都能表示成第一二个向量组的向量的线性组合。

相似矩阵与对角化

设A,BA, BA,B都是nnn阶矩阵,若有可逆矩阵PPP,使

P−1AP=BP^{-1}AP=BP−1AP=B

则称AAA与BBB相似。

相似矩阵的几何意义如下:

假设一个矩阵CCC,则:

CB=CP−1AP\begin{aligned} CB=CP^{-1}AP \end{aligned}CB=CP−1AP​

从上式可以看出,使用BBB对CCC进行变化,等价于先对CCC进行换基,然后进行AAA变化,最后再次进行换基。相似矩阵是在两个不同的基上,对矩阵CCC进行相同的变化

对nnn阶矩阵AAA,寻求相似变换矩阵PPP使P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ

其中,Λ\LambdaΛ为对角阵,这就称为矩阵AAA的对角化。

若AAA为实对称,则一定可以对角化

证明参看(实)对称矩阵的相似,对角化,正定,特征值等性质的部分汇总及证明:对称阵AAA可以对角化是因为:对于AAA中的任意特征值λ1\lambda_{1}λ1​,满足其代数重数等于其几何重数,这使得上述特征值分解内容中的XXX中的向量线性无关,即∣X∣≠0|X|\neq0∣X∣​=0,因此可以写成

AX=X⋅Λ⇒Λ=X−1AXAX =X\cdot \Lambda \Rightarrow \Lambda=X^{-1}AX AX=X⋅Λ⇒Λ=X−1AX

对XXX进行施密特正交化,(参看如何理解施密特(Schmidt)正交化),将XXX变为正交阵PPP,其中XXX和PPP是可以相互表示的(参看矩阵等价的几何意义),即存在一个可逆矩阵DDD满足

X=PD−1X = PD^{-1}X=PD−1

因此PTAP=P−1AP=ΛP^{T}AP=P^{-1}AP=\LambdaPTAP=P−1AP=Λ

其中Λ\LambdaΛ是以AAA的特征值为对角元的对角阵。

特征值分解

对于方阵An,nA_{n,n}An,n​,假设其有nnn个特征值和特征向量,特征值分别为λ1,λ2,λ3⋯λn{\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}λ1​,λ2​,λ3​⋯λn​ ,特征向量分别为x1,x2,x3,⋯,xnx_{1},x_{2}, x_{3},\cdots,x_{n}x1​,x2​,x3​,⋯,xn​,因为An,nA_{n,n}An,n​是一个普通方阵,因此λ1,λ2,λ3⋯λn{\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}λ1​,λ2​,λ3​⋯λn​可能出现重复的多个值,其满足如下所示:

A⋅x1=λ1⋅x1A⋅x2=λ1⋅x2A⋅x3=λ1⋅x3⋮A⋅xn=λ1⋅xnA\cdot x_{1}={\lambda}_{1}\cdot x_{1} \\ A\cdot x_{2}={\lambda}_{1}\cdot x_{2} \\ A\cdot x_{3}={\lambda}_{1}\cdot x_{3} \\ \vdots \\ A\cdot x_{n}={\lambda}_{1}\cdot x_{n}A⋅x1​=λ1​⋅x1​A⋅x2​=λ1​⋅x2​A⋅x3​=λ1​⋅x3​⋮A⋅xn​=λ1​⋅xn​

将这些方程组合到一起为:

A⋅X=A⋅[x1,x2,x3,⋯,xn]=[A⋅x1,A⋅x2,A⋅x3,⋯,A⋅xn]=[λ1⋅x1,λ2⋅x2,λ3⋅x3,⋯,λn⋅xn]=[x1,x2,x3,⋯,xn]⋅[λ100⋯00λ20⋯000λ3⋯0⋮⋮⋮⋱0000⋯λn]=X⋅Λ\begin{aligned} A\cdot X &= A\cdot [x_{1}, x_{2}, x_{3}, \cdots , x_{n}] \\ &=[A\cdot x_{1}, A\cdot x_{2}, A\cdot x_{3}, \cdots, A\cdot x_{n}] \\ &=[{\lambda}_{1}\cdot x_{1}, {\lambda}_{2}\cdot x_{2}, {\lambda}_{3}\cdot x_{3}, \cdots, {\lambda}_{n}\cdot x_{n}] \\ &=[x_{1}, x_{2}, x_{3}, \cdots, x_{n}] \cdot \left[ \begin{matrix} {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 & {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 &{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & {\lambda}_{n} \\ \end{matrix} \right] \\ &=X\cdot \Lambda \end{aligned}A⋅X​=A⋅[x1​,x2​,x3​,⋯,xn​]=[A⋅x1​,A⋅x2​,A⋅x3​,⋯,A⋅xn​]=[λ1​⋅x1​,λ2​⋅x2​,λ3​⋅x3​,⋯,λn​⋅xn​]=[x1​,x2​,x3​,⋯,xn​]⋅⎣⎢⎢⎢⎢⎢⎡​λ1​00⋮0​0λ2​0⋮0​00λ3​⋮0​⋯⋯⋯⋱⋯​0000λn​​⎦⎥⎥⎥⎥⎥⎤​=X⋅Λ​

然而因为∣X∣|X|∣X∣的值可能为0,即X−1X^{-1}X−1可能不存在,因此不可以写成如下形式。

A=X⋅Λ⋅X−1A =X\cdot \Lambda \cdot X^{-1} A=X⋅Λ⋅X−1

如果AAA是对称阵,则XXX中的列向量将线性无关,因此XXX是可逆矩阵,可以写成如下所示:

A=X⋅Λ⋅X−1A =X\cdot \Lambda \cdot X^{-1} A=X⋅Λ⋅X−1

对于上式而言,其中Λ\LambdaΛ是以AAA的特征值为对角元的对角阵,XXX是特征值对应的特征向量,且特征向量互相正交。

对于实对称阵的特征向量,是一个基础解析

如果某个特征值的代数重数和几何重数相同,也就是其基础解析之间是互相线性无关且相互垂直的。因此对于XXX中的特征向量选择的时候,使得其模长为1

由此可得

XT⋅X=EX^{T}\cdot X =EXT⋅X=E

XT=X−1X^{T}=X^{-1}XT=X−1

故可得出,XXX为酉矩阵

因此

A=X⋅Λ⋅X−1=X⋅Λ⋅XTA =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}A=X⋅Λ⋅X−1=X⋅Λ⋅XT

进一步地:

Λ=X−1⋅A⋅X=XT⋅A⋅X\Lambda =X^{-1} \cdot A \cdot X=X^{T} \cdot A \cdot XΛ=X−1⋅A⋅X=XT⋅A⋅X

实现了对称阵AAA的对角化。

施密特正交化:(参看如何理解施密特(Schmidt)正交化)矩阵等价的意义: 矩阵等价的几何意义

特征值分解的几何意义:将特征值分解为正交阵×\times× 对角阵×\times×正交阵,即A=X⋅Λ⋅X−1=X⋅Λ⋅XTA =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}A=X⋅Λ⋅X−1=X⋅Λ⋅XT。其意义为将矩阵A对矩阵的变换,等价为旋转、伸缩、旋转这三个变化。

特征值分解也叫谱分解,其计算过程如下所示:

参看谱分解

有上述计算过程可以看出,对特征向量进行施密特正交化后的矩阵,等价于直接将特征向量进行归一化。

奇异值分解

参看奇异值分解(SVD)

奇异值分解的揭秘(一):矩阵的奇异值分解过程

对于矩阵Am,nA_{m,n}Am,n​来说,其形状为(m,n)(m,n)(m,n),假设n<mn<mn<m,即行大于列,秩为kkk,则k<n<mk<n<mk<n<m。

那么对于ATAA^{T}AATA来说,其形状为(n,n)(n,n)(n,n)假设viv_{i}vi​为其特征向量,λi\lambda_{i}λi​为其特征值,因此满足:

viTvi=1v_{i}^{T}v_{i}=1viT​vi​=1

ATAvi=λiviA^{T}Av_{i}=\lambda_{i}v_{i}ATAvi​=λi​vi​

若V=[v1,v2,⋯,vn]V=[v_{1},v_{2},\cdots, v_{n}]V=[v1​,v2​,⋯,vn​],VVV的形状为(n,n)(n,n)(n,n),则

ATAV=VΛA^{T}AV=V\LambdaATAV=VΛ

使用AAA对向量VVV进行变化,如下:

AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]AV=A[v_{1},v_{2},\cdots, v_{n}]=[Av_{1},Av_{2},\cdots, Av_{n}]AV=A[v1​,v2​,⋯,vn​]=[Av1​,Av2​,⋯,Avn​]

则变化后的[Av1,Av2,⋯,Avn][Av_{1},Av_{2},\cdots, Av_{n}][Av1​,Av2​,⋯,Avn​],对其进行如下处理(Avi)T(Avj)=viTATAvj=viTλjvj=0(Av_{i})^{T}(Av_{j})=v_{i}^{T}A^{T}Av_{j}=v_{i}^{T}\lambda_{j}v_{j}=0(Avi​)T(Avj​)=viT​ATAvj​=viT​λj​vj​=0

即,变化后的方阵的列向量,互相正交。

另外∣Avi∣=(Avi)T(Avi)=viTATAvi=viTλivi=λi|Av_{i}|=\sqrt{(Av_{i})^{T}(Av_{i})}=\sqrt{v_{i}^{T}A^{T}Av_{i}}=\sqrt{v_{i}^{T}\lambda_{i} v_{i}}=\sqrt{\lambda_{i}}∣Avi​∣=(Avi​)T(Avi​)​=viT​ATAvi​​=viT​λi​vi​​=λi​​

令ui=Aviλiu_{i}=\frac{Av_{i}}{\sqrt{\lambda_{i}}}ui​=λi​​Avi​​

可以看出,uiu_{i}ui​是一个列向量,其形状为(m,1)(m,1)(m,1),则U=[u1,u2,⋯,un]=[Av1λ1,Av2λ2,,⋯,Avnλn,]U=[u_{1},u_{2},\cdots,u_{n}]=[\frac{Av_{1}}{ \sqrt{\lambda_{1}}},\frac{Av_{2}}{ \sqrt{\lambda_{2}}},,\cdots, \frac{Av_{n}}{ \sqrt{\lambda_{n}}},]U=[u1​,u2​,⋯,un​]=[λ1​​Av1​​,λ2​​Av2​​,,⋯,λn​​Avn​​,]

因此,UUU的形状为(m,n)(m,n)(m,n)。其列向量是互相正交的单位向量。

下面来讨论UUU中的向量的特点:

ui=Aviλiλiui=AviATAvi=λiviAATAvi=AλiviAATλiui=λiλiuiAATui=λiui\begin{aligned} u_{i}&=\frac{Av_{i}}{\sqrt{\lambda_{i}}} \\ \sqrt{\lambda_{i}} u_{i}&=Av_{i} \\ A^{T}Av_{i}&=\lambda_{i}v_{i} \\ AA^{T}Av_{i}&=A\lambda_{i}v_{i} \\ AA^{T}\sqrt{\lambda_{i}} u_{i}&=\lambda_{i}\sqrt{\lambda_{i}} u_{i} \\ AA^{T} u_{i}&=\lambda_{i} u_{i} \\ \end{aligned}ui​λi​​ui​ATAvi​AATAvi​AATλi​​ui​AATui​​=λi​​Avi​​=Avi​=λi​vi​=Aλi​vi​=λi​λi​​ui​=λi​ui​​

由此可以看出uiu_{i}ui​是AATAA^{T}AAT的特征向量,λi\lambda_{i}λi​是特征值

另外,对于

AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]=[λ1u1,λ2u2,⋯,λnun]=[u1,u2,⋯,un][λ100⋯00λ20⋯000λ3⋯0⋮⋮⋮⋱0000⋯λn]=[u1,u2,⋯,un,∣un+1,un+2,⋯um][λ100⋯00λ20⋯000λ3⋯0⋮⋮⋮⋱0000⋯λn00000⋮⋮⋮⋮⋮00000]=UΣ\begin{aligned} AV&=A[v_{1},v_{2},\cdots, v_{n}] \\ &=[Av_{1},Av_{2},\cdots, Av_{n}] \\ &=[\sqrt{\lambda_{1}} u_{1}, \sqrt{\lambda_{2}} u_{2}, \cdots, \sqrt{\lambda_{n}} u_{n}] \\ &=[u_{1}, u_{2}, \cdots, u_{n}] \left[ \begin{matrix} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \end{matrix} \right] \\ &=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}] \left[ \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array} \right] \\ &=U\Sigma \end{aligned} \\ AV​=A[v1​,v2​,⋯,vn​]=[Av1​,Av2​,⋯,Avn​]=[λ1​​u1​,λ2​​u2​,⋯,λn​​un​]=[u1​,u2​,⋯,un​]⎣⎢⎢⎢⎢⎢⎡​λ​1​00⋮0​0λ​2​0⋮0​00λ​3​⋮0​⋯⋯⋯⋱⋯​0000λ​n​​⎦⎥⎥⎥⎥⎥⎤​=[u1​,u2​,⋯,un​,∣un+1​,un+2​,⋯um​]⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡​λ​1​00⋮00⋮0​0λ​2​0⋮00⋮0​00λ​3​⋮00⋮0​⋯⋯⋯⋱⋯0⋮0​0000λ​n​0⋮0​​​⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤​=UΣ​

其中U=[u1,u2,⋯,un,∣un+1,un+2,⋯um]U=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}]U=[u1​,u2​,⋯,un​,∣un+1​,un+2​,⋯um​]

Σ=λ100⋯00λ20⋯000λ3⋯0⋮⋮⋮⋱0000⋯λn00000⋮⋮⋮⋮⋮00000\Sigma= \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array}Σ=λ​1​00⋮00⋮0​0λ​2​0⋮00⋮0​00λ​3​⋮00⋮0​⋯⋯⋯⋱⋯0⋮0​0000λ​n​0⋮0​​​

其中UUU的形状为(m,n)(m,n)(m,n),Σ\SigmaΣ的形状也是(m,n)(m,n)(m,n)

因为UUU的前nnn个列向量是AATAA^{T}AAT的特征向量,因此对于后添加进去的[un+1,un+2,⋯um][u_{n+1}, u_{n+2}, \cdots u_{m}][un+1​,un+2​,⋯um​],并无特殊要求,也可以取为AATAA^{T}AAT的特征向量,因此整个矩阵UUU即是矩阵AATAA^{T}AAT的特征向量集合。又因为AATAA^{T}AAT是对称阵,因此UUU是正交阵。同时,VVV也是正交阵。

AV=UΣA=UΣV−1=UΣVT\begin{aligned} AV&=U\Sigma\\ A&=U\Sigma V^{-1}=U\Sigma V^{T} \end{aligned} AVA​=UΣ=UΣV−1=UΣVT​

奇异值分解的计算过程参看奇异值分解(SVD)

Hessian矩阵的几何意义

参看Hessian矩阵的几何意义

Hessian矩阵我们已经知道是二阶导数矩阵,有时候二阶导数仍然带有未知数,所以求给定点的Hessian矩阵才有意义,给定坐标后,Hessain矩阵变成常数矩阵,然后就可以求其特征值

如果Hessian矩阵所有特征值均为正:开口向上凹的点如果均为负:开口向下凹的点如果有正有负:存在鞍点如果有一项为0:不确定情况。

协方差矩阵

协方差矩阵的计算及意义

形象理解协方差矩阵

翻译:协方差矩阵的几何解释

协方差矩阵实质上是一个线性变换,主要思想有如下几点:

协方差矩阵是怎么来的:方差表征了沿特征轴方向的离散度,但无法表征特征间的相关性,因此引入协方差来进行描述这种相关性;线性变换由旋转和缩放组成,通过特征值分解的方法可以导出,协方差矩阵等价于对原特征空间的白数据做了一个线性变换;协方差矩阵的最大特征值对应的特征向量,总是指向方差最大的方向;次最大特征值对应的特征向量,正交于最大特征值对应的特征向量,并指向次最大方差指向的方向。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。