比赛链接:/competition/entrance/531830/introduction
因为这是一个金融风控专题的数据挖掘实战,在开始之前先引入一些预备知识。
1.预备知识
1.1预测指标
本次竞赛用AUC作为评价指标,AUC为ROC曲线下与坐标轴围成的面积大小。
分类算法常见的评估指标
1、混淆矩阵(confused matrix)
1.若一个实例为正类,预测也为正类,则为真正类TP(True Positive)
2.若一个实例为正类,预测也为负类,则为假负类FN(False Negative)
3.若一个实例为负类,预测也为正类,则为假正类FP(False Positive)
4.若一个实例为负类,预测也为负类,则为真负类TN(True Negative)
2、准确率(accuracy):不适用于样本不均衡的情况
3、精确率(Precision):也被称为查准率,
4、召回率(Recall):
5、F1-Score:精确率和召回率是相互影响的两个指标,如果精确率上升(下降)则召回率下降(上升)。若要兼顾二者的话,引入了
6、P-R曲线(Precision-Recall Curve):描述精确率和召回率变化的曲线
7、ROC(Receiver Operating characteristic)
引入假正率FPR 和真正率TPR 。ROC曲线就是以FPR为x轴,TPR为y轴的曲线。
8、AUC(Area under Curve):ROC曲线下与坐标轴围成的面积。
金融风控预测类常见的评估指标如下:
K-S曲线(Kolmogorov-Smirnov),K-S曲线与ROC曲线类似,不同在于:
ROC曲线将真正例率和假正例率作为横纵轴,而K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。