知识乱弹_01
1. 如何判断两个变量是否相关?
以这两个变量作为坐标轴,画出这两个变量的散点图,如果这两组散点比较集中,那么我们就可以判断这两个变量是相关的。如果这些点集中在一条直线附近,那我们就称这两个变量是线性相关的,反之如果这些点集中在一条曲线附近,那么我们就说这两个变量是非线性相关的。当然了如果这两组散点是不集中的,那么这两个变量就是不相关的。
2. 什么是最小二乘法?
如果有n个点(x1, y1), (x2, y2) … (xn, yn),可以用如下的图以及公式来刻画这些点与直线y = ax + b的接近程度:
最小二乘法其实就是去找出使得这个接近程度公式的值达到最小的直线!也就是我么常说的回归方程!
3. 如何求出线性回归方程的系数?
当你想用一条直线去描述两个变量之间的关系时,最好的办法就是求解出它们之间的线性回归方程(y = ax + b)。那么怎么求解出这个线性回归方程的参数就是必须要解决的问题了。具体的方法如下:在这其中最需要注意的就是有关系数b的求解。
4. 举一个例题让你感受一下
一般情况下你选择如何去算这道题呢?是不是直接将x = 3代入线性回归方程中呢?其实这样的方法是不正确的,因为这个点很有可能是不在线性回归方程所对应的图像上的。
所以需要我们这么算:因为线性回归方程一定会过的点是x的平均数和y的平均数,在本题中所有的x都是已知的,因此可以求出x的平均数为(1 + 3 + 5+ 7) / 4 = 4,将x的平均数代入线性回归方程中,得到y的平均数为2.75,从而,根据得到的y的平均数可以算出被污染的数据m = 2.75 * 4 - (2 + 3 + 3.5) = 2.5。