1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 暑期数学建模(数据分析)学习笔记

暑期数学建模(数据分析)学习笔记

时间:2019-01-11 16:51:45

相关推荐

暑期数学建模(数据分析)学习笔记

总算忙完所有课程论文,购买了视频课程。

第1讲 层次分析法

综合评价课已学,B站视频也看了,略过。

第2讲 TOPSIS法(优劣解距离法)

综合评价课已学,B站视频也看了,略过。

第3讲 插值算法

针对较少数据,数据不够的情况下,根据已有数据,推算出我们想要的数据(还可以用来预测)。

先求插值函数(插值函数不唯一)

多项式插值

龙格现象:高次差值会使两端波动极大,精度降低(避免使用高次,所以采用分段插值)

分段插值

分段二次插值:选最近的三个节点进行二次插值,用分段抛物线代替原图形

拉格朗日插值法:

牛顿插值法:(计算过程有继承性,但是也有龙格现象)

拉格朗日插值法和牛顿插值法不能反映被插值函数的性态(函数值相同,导数值有时也有要求)

埃尔米特插值(函数值和导数值都相等)

实际应用中分段三次埃尔米特插值较为常用

三次样条插值(条件更多,曲线更加平滑,更加接近原函数曲线)

第4讲 拟合算法

和插值的区别:

插值算法:必须经过所有的点

拟合算法:不必经过所有的点,误差足够小就可以

散点图——拟合曲线

利用最小二乘法求得拟合曲线

绝对值不容易求导

3次方会导致正负相抵

4次方会导致异常值的干扰变大

评价拟合的好坏:

MATLAB 曲线拟合工具箱

简洁性和精度的平衡

使用较多的类型:

Polynomial 多形式逼近(可以更改阶数)

Custom Equations 自定义函数类型

第5讲 相关系数

一般默认为皮尔逊相关系数

协方差会受到两个变量的量纲的影响,不适合直接做比较

皮尔逊相关系数就是将X和Y标准化后的协方差

皮尔逊相关系数只是衡量两个变量线性相关程度的指标(首先这两个变量是线性相关的),越大相关性越强;

如果不确定两个变量什么关系,画散点图来看。

SPSS 24 描述性统计 标度/有序

MATLAB计算描述性统计:

EXCEL 条件格式 对相关系数表进行美化

假设检验(学过)

显著性标记

一颗 在99%的置信水平上拒绝原假设

两颗 在95%的置信水平上拒绝原假设

三颗 在90%的置信水平上拒绝原假设

如何检验数据是否是正态分布:

正态分布JB检验

大样本n>30 雅克-贝拉检验(JB检验)

小样本3≤n≤50 夏皮洛-威尔克检验(需要用SPSS)

如果样本数据不是呈正态分布,采用斯皮尔曼相关系数

根据查表来得出结论(样本相关系数必须大于等于表中的临界值,才能得出显著的结论)

两种相关系数的比较

第6讲 典型相关分析

研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法。

它能够揭示出两组变量之间的内在联系。

注意量纲对结果的影响,SPSS所求标准化/非标准化

计算出标准化典型相关变量对应的线性组合系数,更进一步进行典型载荷分析

典型载荷分析:分析原始变量和典型变量之间的相关性分析

第7讲 多元线性回归分析

通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

常见的回归分析有五类:线性回归、0-1回归、定序回归、计数回归和生存回归。

相关性≠因果性

Y:因变量;被解释变量

X:自变量;解释变量

回归分析要完成的三个使命:

1.识别重要变量

2.判断相关性的方向

3.估计权重(回归系数)

回归分类

数据的分类

横截面数据:在某一时间点收集的不同对象的数据 (各省GDP数据)

时间序列数据:对同一对象在不同时间连续观察所取得的数据(-江苏省GDP数据)

面板数据:横截面数据与时间序列数据综合(-我国各省GDP数据)

不同数据类型的处理方法

数据收集

一元线性回归模型

要使得残差最小

不一定是严格的线性关系,需要先对数据进行预处理

matlab较麻烦,使用stata

回归系数中遗漏变量会导致内生性

误差量是包含了所有与y相关,但未添加到回归模型中的变量

什么时候取对数

四类模型回归系数的解释

在回归中有定性变量,那么采用虚拟变量(性别、地域等)

为了避免完全多重共线性的影响,引入虚拟变量的个数一般为分类数减1

Stata软件(运算速度比SPSS快)

具体操作见视频

去量纲影响

多元回归 数据进行归一化处理,会影响数据的解释。

不要随意添加高次项

置信区间最好不要包含原点

异方差检验

向后逐步回归

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。