1200字范文 > 机器学习模型训练全流程

机器学习模型训练全流程

时间：2024-05-24 20:22:49

相关推荐

机器学习模型训练全流程

一.机器学习模型训练全流程

1.获得原始数据集

同时包含X和Y——可以用于监督学习(回归或分类）；只包含X——无监督学习。

若Y包含定量值，那么数据集（由X和Y组成）用于回归；若Y包含定性值，那么数据集（由X和Y组成）用于分类。

2.探索性数据分析（EDA）

通常使用的三大EDA方法：

1）描述性统计：平均数、中位数、模式、标准差。

2）数据可视化：热力图（辨别特征内部相关性）、箱形图（可视化群体差异）、散点图（可视化特征之间的相关性）、主成分分析（可视化数据集中呈现的聚类分布）等。

3）数据整形：对数据进行透视、分组、过滤等。

3.数据预处理

数据清洗、数据整理、删除冗余数据，例如数据无量纲化（归一化压缩到某一区间、标准化服从N（0,1) ）、缺失值、分类数据处理（编码，文字型转换为数值型；名义变量用哑变量；独热编码）、连续数据处理（设阈值二值化、分箱）

4.数据分割

分割为训练集+测试集（80%+20%）。训练集建立预测模型，然后将这种训练好的模型应用于测试集（即作为新的、未见过的数据）上进行预测。根据模型在测试集上的表现来选择最佳模型，为了获得最佳模型，还可以进行超参数优化。分割为训练集+验证集+测试集（60%+20%+20%）。训练集用于建立预测模型，同时对验证集进行评估，据此进行预测，可以进行模型调优（如超参数优化），并根据验证集的结果选择性能最好的模型。测试集可以真正充当新的、未知的数据。交叉验证

5.模型建立

学习算法：

监督学习：是一种机器学习任务，建立输入X和输出Y变量之间的数学（映射）关系。这样的X、Y对构成了用于建立模型的标签数据，以便学习如何从输入中预测输出。

无监督学习：是一种只利用输入X变量的机器学习任务。这种 X 变量是未标记的数据，学习算法在建模时使用的是数据的固有结构。

强化学习：是一种决定下一步行动方案的机器学习任务，它通过试错学习来实现这一目标，努力使回报最大化。超参数调优：超参数本质上是机器学习算法的参数。特征选择：过滤法（方差过滤、相关性过滤法（卡方过滤、F检验（线性关系）、互信息法（任意关系））、嵌入法、包装法

6.机器学习任务

在监督学习中，两个常见的机器学习任务包括分类和回归。

一个分类模型的过程示意图：

模型评价指标：

分类

准确率（Ac）、灵敏度（Sn）、特异性（Sp）、马太相关系数（MCC）

其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的实例。应该注意的是，MCC的范围从-1到1，其中MCC为-1表示最坏的可能预测，而值为1表示最好的可能预测方案。此外，MCC为0表示随机预测。回归