1200字范文 > 深度学习（花书）读书笔记

深度学习（花书）读书笔记

时间：2019-03-10 21:42:14

相关推荐

深度学习（花书）读书笔记

《深度学习》读书笔记

介绍第一章引言1.1 深度学习的概念1.2 深度学习和人工智能1.3 从不同角度来看深度学习1.4 联结主义第一部分应用数学和机器学习基础第二章线性代数2.1 线性相关和生成子空间2.2 范数2.3 一些概念第三章概率与信息论3.1 为什么要使用概率？3.2 随机变量和随机分布3.3 一些概念及公式第四章数值计算4.1 上溢和下溢问题4.2 基于梯度的优化方法4.2.1 导数与梯度4.2.2 Jacobian 和 Hessian矩阵4.3 约束优化第五章机器学习基础5.1 基础概念机器学习任务的分类（部分）：一些概念

介绍

最近暂时没什么事，闲下来准备再重新系统的学习一下深度学习相关的知识，然后在这里记录一下阅读《深度学习》这本书时的一些笔记和心得。

第一章引言

1.1 深度学习的概念

让计算机从经验获取知识，可以避免由人类来给计算机形式化的指定它所需要的所有知识。层次化的概念让计算机构建较简单的概念来学习复杂的概念。如果绘制出这些概念是如何建立在彼此之上的图，我们将得到一张“深”（层次很多）的图，基于这个原因，把这种方法称为深度学习。深度学习让计算机通过较简单的概念来构建复杂的概念。

1.2 深度学习和人工智能

AI：在最初阶段，人类企图用知识库的概念来实现AI，即对世界的知识利用形式化语言进行硬编码，让计算机利用逻辑推理规则来理解这些形式化的语言。想要人为设计足够复杂的规则来精确描述世界。（人为构建知识）机器学习：由于人为构建知识库的方法十分笨拙繁杂，所以出现了机器学习的概念，像逻辑回归这种方法，企图从原始输入数据中提取某种模式，来做出主观决策（输出），这种机器学习方法十分依赖于给定数据的表示。表示学习：由于机器学习十分依赖于给定数据的表示，使用不同的数据表示（特征）会导致不同的结果，而通常情况下，数据的特征往往是不可见的，很难人为的决定要使用哪些特征，赋予多大的权重，所以出现了自编码器模型这种表示学习方法来挖掘表示本身。深度学习：表示学习的目标在于找出能最好描述观察数据的变差因素，但通常情况下，不同的数据受多个不同的变差因素影响，很难找出通用的变差因素，因此出现了以MLPs为代表的深度学习方法，企图使用其他较简单的表示来表达复杂的表示。

1.3 从不同角度来看深度学习

我们可以从两个不同的视角来解释深度学习，一个就是前面提到的学习数据的正确表示，另一个视角是深度促使计算机学习一个多步骤的计算机程序。每一层表示都可以被认为是并行执行另一组指令之后计算机的存储器状态，更深的网络可以顺序的执行更多的指令，这种顺序指令的方式为计算机提供了强大的能力，因为每一层的表示不仅仅蕴涵了解释输入的变差因素，同时还存储了状态信息用于帮助当前层理解输入，后面的指令可以参考早期指令的结果。

1.4 联结主义

联结主义带动了神经网络研究的第二次浪潮（第一次是控制论），联结主义的中心思想是当网络将大量简单的计算单元连接在一起时可以实现智能行为。其中一个概念是分布式表示，即系统的每一个输入都应该由多个特征表示，并且每一个特征都应该参与到多个输入的表示。例如想要识别红黄蓝三种颜色的汽车、卡车和鸟类，一种最简单的方法是使用9个简单的神经元并排排列分别负责每个种类的描述。而基于分布式表示的思想，则应该是使用6个神经元，前三个并排负责颜色的描述，然后与后三个神经元连接，后三个神经元负责种类的描述。

第一部分应用数学和机器学习基础

第二章线性代数

这里主要记录线性代数在机器学习中比较重要的几个概念。

2.1 线性相关和生成子空间

我们知道在线性代数中想要求解方程Ax=b,A∈Rm×nAx=b, A\in\R^{m\times n}Ax=b,A∈Rm×n的解，可以转换为x=A−1bx=A^{-1}bx=A−1b这种形式，这取决于我们能否找到这样一个逆矩阵A−1A^{-1}A−1，对于方程组而言，对于向量b的某些值，要么无解要么存在无数多个解，不可能出现存在大于1个小于无限个解的情况（因为任意两个解的线性组合可以构成第三个解）。

我们可以把A的列向量看作是多维空间中从原点出发的不同方向，想要求解上述方程也就是确定在不同的方向上走多远可以到达向量b，用公式来表示就是Ax=∑ixiA:,iAx=\sum_{i}x_iA_{:,i}Ax=i∑xiA:,i这种操作就是线性组合，指每个向量乘以对应标量系数之后的和，即 ∑icivi\sum_ic_iv^i∑icivi ，而一组向量的生成子空间就是原始向量线性组合能够到达的点。

有了上述知识之后，我们想要确定方程Ax=bAx=bAx=b是否有解，其实就是确定向量b是否在A的列向量的生成子空间中，也被称为列空间或者值域。为了让Ax=bAx=bAx=b对任意向量b∈Rmb\in\R^mb∈Rm都有解，那么要求矩阵A的列向量维度必须≥m，否则A的列向量描述的永远是一个子空间（三维空间中的平面）。所以要求n≥mn\ge mn≥m，但注意这只是方程对每一点都有解的必要条件，因为有些列向量可能是冗余的，而这种冗余的列向量就称为线性相关，如果一组向量中的任意一个向量都不可以有其他向量的线性组合表示，那么称这组向量是线性无关的。

所以这意味着要想让一个矩阵的列空间涵盖整个Rm\R^mRm，那么该矩阵必须含有至少一组m个线性无关的向量，这是方程Ax=bAx=bAx=b对每一个向量b都有解的充分必要条件。但需要注意的是包含恰有m个线性无关的向量，而不能多于m个，因为一组大于m个线性无关向量组成的向量集合可能存在不止一个大小为m的线性无关向量集，而要想保证矩阵A可逆，必须要求对于向量b的每一个值，最多只有一个解。综上所述，我们必须保证矩阵A是一个方阵（m=n），并且所有列向量是线性无关的，一个列向量线性相关的方阵被称为奇异的。

2.2 范数

范数用来衡量一个向量的大小，是将向量映射到非负值的函数，向量x的范数衡量从原点到x点的距离。

通常来说平方L2L^2L2范数的性质要比L2L^2L2范数好，因为其求导后只取决于对应元素，而L2L^2L2范数求导后和整个向量都相关。但是平方L2L^2L2范数的缺点在于其在原点附近增长十分缓慢，因此不适合严格区分零值和接近零值的场景，这种场景下线性变化的L1L^1L1范数更合适。

2.3 一些概念

非方阵的对角矩阵没有逆矩阵对称矩阵是转置和自身相等的矩阵，即A=ATA=A^TA=AT单位向量是具有单位范数的向量，即∥x∥2=1\parallel x \parallel _2=1∥x∥2=1如果xTy=0x^Ty=0xTy=0，那么向量x和向量y互相正交，如果两个向量都具有非零范数，则夹角为90°。如果两个向量不但互相正交而且范数均为1，称它们是标准正交正交矩阵指的是行向量和列向量分别标准正交的矩阵，即ATA=AAT=IA^TA=AA^T=IATA=AAT=I其求逆代价很小方阵A的特征向量指的是与A相乘后相当于对该向量进行缩放的非零向量υ\upsilonυ：Aυ=λυA\upsilon=\lambda\upsilonAυ=λυ标量λ\lambdaλ称为特征值，用矩阵的形式也可以表示为A=Vdiag(λ)V−1A=Vdiag(\lambda)V^{-1}A=Vdiag(λ)V−1源自上条，因此构建具有特征特征值和特征向量的矩阵，能够使我们在特定目标方向上延申空间每个实对称矩阵都可以分解成实特征向量和实特征值：A=QΛQTA=Q\Lambda Q^TA=QΛQT其中Q是A的特征向量组成的正交矩阵，为什么Q是正交矩阵是因为虽然任意一个实对称矩阵A都有特征分解，但是特征分解可能不唯一，如果两个特征向量具有相同的特征值，那么在有这些特征向量产生的子空间中任意正交的向量都是该特征值对应的特征向量，通过这种方法就可以构造出一个正交的特征向量矩阵Q。矩阵是奇异的，当且仅当矩阵含有零特征值所有特征值都是正数的矩阵称为正定矩阵，所有特征值都是非负数的矩阵称为半正定矩阵每个实数矩阵都有奇异值分解，但不一定有特征分解，奇异分解可用如下公式表示：A=UDVTA=UDV^TA=UDVTD是对角矩阵，其对角线上的元素称为奇异值，矩阵U的列向量称为左奇异向量，矩阵V的列向量称为右奇异向量。迹运算返回的是矩阵主对角线元素的和，即Tr(A)=∑iAi,iTr(A)=\sum_iA_{i,i}Tr(A)=i∑Ai,iFrobenius范数用来计算矩阵的L2L^2L2范数，有如下两种形式∥A∥F=∑i,jAi,j2\parallel A\parallel_F=\sqrt{\sum_{i,j}A_{i,j}^2}∥A∥F=i,j∑Ai,j2∥A∥F=Tr(AAT)\parallel A\parallel_F=\sqrt{Tr(AA^T)}∥A∥F=Tr(AAT)多个矩阵相乘得到方阵的迹，将最后一个矩阵挪到第一个，这样反复循环置换不会影响最终的结果行列式等于矩阵特征值的乘积

第三章概率与信息论

概率论能够使我们提出不确定的声明以及在不确定性存在的情况下进行推理，而信息论使我们能够量化概率分布中的不确定性总量。概率论提供了一套形式化的规则，可以在给定一些命题的似然后，计算其他命题为真的似然。

3.1 为什么要使用概率？

因为机器学习必须要处理不确定量，有时还需要处理随机量。而这种不确定性主要来自以下三个方面：

被建模对象内在的随机性：例如假设纸牌游戏中纸牌被真正混洗成了随机顺序。不完全观测：选择门游戏中，虽然每扇门后的结果（被建模对象）是确定的，但是对于玩家来说，结果是不确定的。不完全建模：能够预测目标位置的机器人，如果使用离散点坐标，那么始终无法准确预测，目标位置可能在离散单元的任意角落。

概率的分类：通常来说我们把某个事件的概率为p理解为重复进行相同实验无限次，那么出现这个事件结果占所有结果中p的比例。但是这种解释并不立即适用于那些不可重复的命题。，例如医生诊断病人后给出的患病概率为40%，这是完全不同的含义，这种情况下概率表示的是信任度。因此通常把概率分为两种：

频率派概率：直接与事件发生的频率相关。贝叶斯概率：涉及确定性水平。

3.2 随机变量和随机分布

随机变量：随机的取不同值的变量，只是对可能的状态的描述，必须伴随一个随机分布来指定每个状态的可能性。随机分布：用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。

3.3 一些概念及公式

边缘概率分布：定义在子集上的概率分布，对于离散型随机变量使用求和计算∀x∈x,P(x=x)=∑xP(x=x,y=y)\forall x \in x, P(x=x)=\sum_xP(x=x,y=y)∀x∈x,P(x=x)=x∑P(x=x,y=y)对于连续性随机变量使用积分计算p(x)=∫p(x,y)dyp(x)=\int p(x,y)dyp(x)=∫p(x,y)dy条件概率分布：某个事件在给定其他事件发生时出现的概率。给定x=x情况下，y=y的概率为P(y=y∣x=x)=P(x=x,y=y)P(x=x)P(y=y|x=x) = \frac{ P(x=x, y=y) }{P(x=x)}P(y=y∣x=x)=P(x=x)P(x=x,y=y)如果两个随机变量x，y的联合概率分布可以直接表示成两个因子的乘积形式，并且一个因子只包含x另一个只包含y，则称这两个随机变量是相互独立的。如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积的形式，那么称随机变量x和y在给定z的情况下是条件独立的。函数f(x)f(x)f(x)关于某个分布P(x)P(x)P(x)的期望是指，当xxx由分布P产生，fff(概率密度函数)作用于xxx时，f(x)f(x)f(x)的平均值。离散型随机变量通过求和得到ExP[f(x)]=∑xP(x)f(x)\mathbb{E}_{x~P}[f(x)]=\sum_xP(x)f(x)ExP[f(x)]=x∑P(x)f(x)连续型随机变量通过积分得到Exp[f(x)]=∫xp(x)f(x)dx\mathbb{E}_{x~p}[f(x)]=\int_xp(x)f(x)dxExp[f(x)]=∫xp(x)f(x)dx方差衡量的是当我们对x依据它的概率分布进行采样时，随机变量x的函数指会呈现多大的差异：Var(f(x))=E[(f(x)−E[f(x)])2]Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]Var(f(x))=E[(f(x)−E[f(x)])2]协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：Cov(f(x),g(y))=E[(f(x)−E[f(x)])(f(y)−E[f(y)])]Cov(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(f(y)-\mathbb{E}[f(y)])]Cov(f(x),g(y))=E[(f(x)−E[f(x)])(f(y)−E[f(y)])]相关系数将每个变量的贡献归一化，只衡量两个变量之间的相关性程度而不受各个变量尺度的影响。高斯分布常用的原因主要体现在两个方面，一是建模的很多分布的真实情况十分接近高斯分布，中心极限定理说明很多独立随机变量的和近似服从高斯分布。其二是在具有相同方差的所有可能的分布中，高斯分布在实数上具有最大的不确定性，这意味着高斯分布是对模型加入先验知识最少的分布。潜变量是指我们不能直接观测到的随机变量。sigmoid函数通常用来产生伯努利分布中的ϕ\phiϕ指。softmax函数通常用来生成正态分布中的β\betaβ和σ\sigmaσ值。贝叶斯公式用来在已知P(y∣x)P(y|x)P(y∣x)和P(x)P(x)P(x)时计算P(x∣y)P(x|y)P(x∣y)：P(x∣y)=P(y∣x)P(x)P(y)P(x|y)=\frac{P(y|x)P(x)}{P(y)}P(x∣y)=P(y)P(y∣x)P(x)其中P(y)P(y)P(y)并不是已知的，而是通过边缘概率计算得到P(y)=∑xP(y∣x)P(x)P(y)=\sum_xP(y|x)P(x)P(y)=x∑P(y∣x)P(x)自信息表示当某个事件发生时所产生的信息，即I(x)=−logP(x)I(x)=-logP(x)I(x)=−logP(x)香农熵用来对整个概率分布中的不确定性进行量化:H(x)=−∑xp(x)logp(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]H(x)=-\sum_xp(x)logp(x)=\mathbb{E}_{x\sim P}[I(x)]=-\mathbb{E}_{x\sim P}[logP(x)]H(x)=−x∑p(x)logp(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]KL散度用来衡量同一个随机变量服从的两个不同分布之间的差异：DKL(P∥Q)=∑xp(x)logp(x)q(x)=Ex∼P[logp(x)q(x)]D_{KL}(P\parallel Q)=\sum_xp(x)log\frac{p(x)}{q(x)}=\mathbb{E}_{x\sim P}[log\frac{p(x)}{q(x)}]DKL(P∥Q)=x∑p(x)logq(x)p(x)=Ex∼P[logq(x)p(x)]可以看到，KL散度是不对称的。交叉熵也可以用来计算两个分布之间的差异H(P,Q)=∑xp(x)log1q(x)=−∑xp(x)logq(x)H(P, Q)=\sum_xp(x)log\frac{1}{q(x)}=-\sum_xp(x)logq(x)H(P,Q)=x∑p(x)logq(x)1=−x∑p(x)logq(x)并且观察交叉熵、相对熵(KL散度)和熵之间的关系可以发现H(P,Q)=H(P)+DKL(P∥Q)H(P, Q)=H(P)+D_{KL}(P\parallel Q)H(P,Q)=H(P)+DKL(P∥Q)关于熵相关的知识详情可参见这篇文章为了高效的计算和统计，我们可以把概率分布分解成许多因子的乘积形式，而不是使用单一的函数来表示概率分布，这种概率分布分解可以利用结构化概率模型图实现，分为有向图和无向图。

第四章数值计算

4.1 上溢和下溢问题

上溢：大量级的数被近似为∞或者-∞下溢：接近0的数被四舍五入看作0

softmax中的溢出问题：softmax函数是机器学习中非常常用的一个函数，经常用来解决Multinoulli分布相关联的概率问题：softmax(xi)=exp(xi)∑j=1nexp(xj))softmax(x_i)=\frac{exp(x_i)}{\sum_{j=1}^nexp(x_j))}softmax(xi)=∑j=1nexp(xj))exp(xi)

可以发现，在softmax中一旦出现上溢或者下溢的问题就会直接导致计算错误，因此softmax中通过将 z=x−maxxiz=x-maxx_iz=x−maxxi 作为输入同时解决上面两个问题，经过代数计算，函数的值不会因为加上一个标量而发生改变。这样可以保证exp函数的系数最大为0，并且分母中至少有一项为，也就不存在下溢问题。

条件数指的是函数相对于输入的微小变化而变化的快慢程度。

4.2 基于梯度的优化方法

4.2.1 导数与梯度

目标函数：要最小化或者最大化的函数，执行最小化时，还可以成为损失函数。导数：表明了如何对输入进行缩放才能在输出获得相应的变化f(x+ϵ)≈f(x)+ϵf′(x)f(x+\epsilon)\approx f(x)+\epsilon f^{'}(x)f(x+ϵ)≈f(x)+ϵf′(x)梯度下降：我们知道对于足够小的ϵ\epsilonϵ来说，f(x−ϵsign(f′(x)))f(x-\epsilon sign(f^{'}(x)))f(x−ϵsign(f′(x)))是比f(x)f(x)f(x)小的，所以我们可以将x往导数的反方向移动一小部来最小化f(x)f(x)f(x)，导数的反方向即是函数的下坡方向。梯度：梯度▽xf(x)\bigtriangledown_xf(x)▽xf(x)是函数相对一个向量求导的导数，f的梯度是包含所有偏导数的向量

通过引入函数在某一方向u的方向导数，我们可以找出梯度下降最快的方向是通过最小化cosθcos \thetacosθ得到的，θ\thetaθ表示梯度与u的夹角，所以显而易见取相反方向时得到最小值。因此梯度下降算法建议新的点为：x′=x−ϵ▽xf(x)x^{'}=x-\epsilon \bigtriangledown_xf(x)x′=x−ϵ▽xf(x)

其在梯度的每一个元素为零时收敛。

4.2.2 Jacobian 和 Hessian矩阵

Jacobian矩阵：输入和输出都为向量的所有偏导数构成的矩阵，具体来说，如果我们有一个函数f:Rm→Rnf: \R^m \to \R^nf:Rm→Rn，fff的jacabian矩阵J∈Rn∗mJ \in \R^{n*m}J∈Rn∗m定义为Ji,j=δδxjf(x)iJ_{i, j}=\frac{\delta}{\delta x_j}f(x)_iJi,j=δxjδf(x)i二阶导数表示曲率，告诉我们一阶导数如何随着输入的变化而变化，对于负曲率，代价函数实际比梯度预测下降的要快，没有曲率代价函数与梯度预测下降相同，正曲率代价函数实际比梯度预测下降要慢，甚至还会增加。Hessian矩阵是由二阶导数构成的矩阵，它等价于梯度的Jacobian矩阵，定义为H(f)(x)=δ2δxiδxjf(x)H(f)(x)=\frac{\delta^2}{\delta x_i\delta x_j}f(x)H(f)(x)=δxiδxjδ2f(x)Hessian矩阵是实对称矩阵，所以可以进行特征分解得到一组特征向量和特征值，并且具有正交的特征向量矩阵，可以证明当d是H的一个特征向量时，函数在d这个方向上的二阶导数就是特征值，其他方向ze’wei 所有特征值的加权平均。最大特征值决定最大二阶导数，最小特征值确定最小二阶导数。当f′(x)=0,f′′(x)>0f^{'}(x)=0, f^{''}(x)>0f′(x)=0,f′′(x)>0，x为局部最小点；f′(x)=0,f′′(x)<0f^{'}(x)=0, f^{''}(x)<0f′(x)=0,f′′(x)<0时x为局部最大点，推广到多维上，当Hessian矩阵为正定时，该临界点是局部极小点，负定时为局部极大点。而对于其他情况（负数特征值和正数特征值同时存在或者为0时）上述检测就是不确定的。牛顿法就是利用Hessian矩阵的信息来指导搜索过程，其首先基于泰勒展开式来近似x点附近的f(x)f(x)f(x)，然后求出附近的临界点，如果f是一个正定函数，通过一次优化就可以直接到打目标点，如果是局部正定的就需要进行多次优化逐步逼近，而由于前面提到了Hessian矩阵检测只有在正定或者负定的情况下才是确定的，对于其他情况则是无法确定的，所以在这个优化问题上，要求x点附近的临界点必须是正定的，牛顿法才能起到比较好的效果。一阶优化指仅使用梯度信息的优化算法，例如梯度下降，而二阶优化指的是使用Hessian矩阵的优化算法，如牛顿法。

4.3 约束优化

约束优化指的是希望x在某些集合SSS中找使得f(x)f(x)f(x)最大或者最小的指。

Karush-Kuhn-Tucker(KKT)算法是解决约束优化问题常用的方法。通过构造等式和不等式的形式来描述S，S={x∣∀i,g(i)(x)=0and∀j,h(j)≥0}S=\{x|\forall i, g^{(i)}(x)=0 \ and\ \forall j, h^{(j)}\ge0 \}S={x∣∀i,g(i)(x)=0and∀j,h(j)≥0}，其中涉及g(i)g^{(i)}g(i)的称为等式约束，涉及h(i)h^{(i)}h(i)的称为不等式约束。并且为每个约束引入新的变量λi\lambda_iλi和αj\alpha_jαj，这些新变量称为KKT乘子，因此广义Lagrange可以定义为L(x,λ,α)=f(x)+∑iλig(i)(x)+∑jαjh(j)(x)L(x,\lambda ,\alpha)=f(x)+\sum_i\lambda _ig^{(i)}(x)+\sum_j\alpha_jh^{(j)(x)}L(x,λ,α)=f(x)+i∑λig(i)(x)+j∑αjh(j)(x)约束问题等价于minxmaxλmaxαL(x,λ,α)min_x\ max_\lambda \ max_\alpha L(x,\lambda ,\alpha)minxmaxλmaxαL(x,λ,α)

可以使用一组简单的性质来描述约束优化问题的最优点：

广义Lagrange函数的梯度为零所有关于x和KKT乘子的约束都满足不等式约束显示的“互补松弛性”：α⊙h(x)=0\alpha \odot h(x)=0α⊙h(x)=0

第五章机器学习基础

5.1 基础概念

机器学习任务的分类（部分）：

输入缺失分类：与一般的分类任务不同，输入可能存在部分缺失，所以需要学习一组函数而不是单个分类函数，每个函数对应着具有不同缺失输入自己的x转录：转录指的是机器学习系统观测一些相对非结构化表示的数据，并转录为离散的文本形式，例如光学字符识别结构化输出：输出是向量或者其他包含多个值的数据结构，并且构成这些数据结构的元素之间有着重要关系，例如图像分隔。密度估计：机器学习算法学习样本采样空间的概率密度函数，什么情况下样本聚集出现，什么情况下不太可能出现，显示的捕获概率分布

一些概念

无监督学习：观察随机向量x的好几个样本，试图显式或隐式的学习出概率分布p(x)p(x)p(x)监督学习：包含观察随机向量x及其相关联的值或者向量y，从x预测y，估计p(y∣x)p(y|x)p(y∣x)机器学习算法定义为通过经验以提高计算机在某些任务上的性能泛化指的是在先前从未观测到的输入上表现良好的能力决定机器学习算法效果是否好的因素有两点，一是降低训练误差，二是降低训练误差和泛化误差之间的差距模型的容量指的是拟合各种函数的能力，一种控制算法容量的方法是选择假设空间，即解决方案的函数集容量不仅取绝于模型的选择，模型规定了调整参数降低训练目标值的时候，学习算法可以从哪些函数族中选择函数，这被称为模型的表示容量VC维是一种量化模型容量的方法，定义为该分类器能够分类的样本的最大数目训练误差和泛化误差之间的差异的上界随着模型容量增大而增大，随着样本数量增加而减小从预先知道的真实分布p(x,y)p(x, y)p(x,y)预测而出现的误差被称为贝叶斯误差，通常是由噪声或者分布的内在随机性导致的控制算法性能的方式有两种，分别是控制允许使用函数的数量和种类正则化是指修改学习算法，使其降低泛化误差而非训练误差验证集是用来挑选超参数的

（未完待续，争取日更！！！）

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。