1200字范文 > excel线性拟合的斜率_邵励治的机器学习 2 / 100 天：「简单线性回归」

excel线性拟合的斜率_邵励治的机器学习 2 / 100 天：「简单线性回归」

时间：2024-07-15 09:00:14

前言

好了，我们闲言碎语不多讲，下面开始机器学习100天：第2天的学习！

另外，如果看官老爷喜欢我的文章，还请点个赞的说！

这是对我的认真分享最好的鼓励！

知识储备环节

今天我们学习的内容是：“简单线性回归”！！！（SIMPLE LINEAR REGRESSION）即：我们将使用“1 个特征”来预测一个结果，回想下我们高中学的最简单函数——线性函数吧！我们将假设“某 1 个特征”与“某 1 个标签”线性相关，所以我们要尽可能准确的找出一个“线性函数”来描述它们之间的这种关系。

问题 0-1：什么是线性函数？

答：上过高中的都应该记得，线性函数就是传说中的「一次函数」，即：

问题 0-2：我们将通过线性函数解决什么问题？

答：我们这次解决的问题是——

我们希望通过“分析”一个学生的「学习时长 hours」，来“预测”该学生最终在考试中可以取得的「分数 score」。

我们的线性函数模型

问题 0-3：我们该怎么找到这个“线性函数”呢？

答：我们会使用一个数据集（.csv 表格文件），其中的数据是类似于这样子的：

然后我们通过某种算法，让机器自己学习这些数据，最终得出一个线性函数————

这个线性函数将尽可能的满足这些数据。

问题 0-4：什么叫“线性函数将尽可能满足这些数据”？

答：想象我们已经找到了一个线性函数：

其中，score 是「因变量」，hours 是「自变量」，当我们将表中的所有「自变量 hours」输入到我们的线性函数中，我们就会得到一个「因变量 k*hours + b」，故我们可以构建一个如下表格：

当我们的线性方程满足了如下条件后，即可认为该线性函数尽可能的满足了这些数据。

经过基础理论部分的内容，我想大家已经准备好了开始 Coding 了呢！

Let's Do It!!!!!!!!

第一步：数据预处理

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv('studentscores.csv')X = dataset.iloc[ : , : 1 ].valuesY = dataset.iloc[ : , 1 ].valuesfrom sklearn.cross_validation import train_test_split // 原文使用的方法已经被弃用from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)

问题 1-1：我们这里做的数据预处理，为何与「第一天」不太一样？

答：做数据预处理时，就像第一天所学的知识一样，我们需要先依照如下步骤进行操作：

第一步：导入数据我们将 Data.csv 中的数据导入为“特征值组 X”与“标签组 Y”第二步：数据补全我们用取平均数的方式补全了“特征值组 X”与“标签组 Y”中缺省的数据第三步：编码数据我们将“STRING”型的数据，编码成了“INT”型数据，以方便数学模型处理第四步：分割数据我们将“特征值组 X”与“标签组 Y”，以 8 : 2 的比例分割成了“训练集 X”、“测试集 X”与“训练集 Y”、“测试集 Y”第五步：特征缩放为了防止“特征幅度”特别大的特征，在计算欧式距离时太占优势，我们对特征值进行了特征缩放————让特征们的平均值为 0，标准差为 1。

上面的是数据预处理的全部流程，但是我们这次的数据：

数据完整——故不需「第二步：数据补全」数据类型全部为“INT”——故不需「第三步：编码数据」数据「特征幅度」相近——故不需「第五步：特征缩放」

所以我们这里只做了「导入数据」、「分割数据」两个操作。

问题 1-2：iloc [ : , : 1 ] 与 iloc [ : , 0 ] 有什么区别吗？

问题解释：
iloc [ : , : 1 ] 是取 [ 0, 1 ) 这个区间的列——也就是第 0 列。
iloc [ : , 0 ] 是取第 0 列。

答：用「切片」取出来的是「数组」，用「INT 值」取出来的是「INT值」；

所以，虽然它们都是取「所有行」和「第 0 列」，但是数据结构有所不同。

// 切片：iloc[ : , : 1 ][ [2.5] [5.1] [3.2] [8.5] [3.5] [1.5][9.2] [5.5] [8.3] [2.7] [7.7] [5.9][4.5] [3.3] [1.1] [8.9] [2.5] [1.9][6.1] [7.4] [2.7] [4.8] [3.8] [6.9][7.8] ]// INT值：iloc[ : , 0 ][ 2.5 5.1 3.2 8.5 3.5 1.5 9.2 5.5 8.3 2.7 7.7 5.94.5 3.3 1.1 8.9 2.5 1.96.1 7.4 2.7 4.8 3.8 6.97.8 ]