ConfusionMatrix:Confusion Matrix:ConfusionMatrix:
召回率Recall=TPTP+FNRecall = \dfrac{TP}{TP + FN}Recall=TP+FNTP,关注真实情况,关注positive。“好瓜被挑出来的概率”
精确率Precision=TPTP+FPPrecision = \dfrac{TP}{TP + FP}Precision=TP+FPTP,关注预测情况,关注positive。“挑出来的瓜有多少真的是好瓜”
正确率Accuracy=TP+TNTP+FN+FP+TNAccuracy = \dfrac{TP + TN}{TP + FN + FP + TN}\quadAccuracy=TP+FN+FP+TNTP+TN,positive与negative预测的准确性
FFF值:
β2+1F=β2R+1P\dfrac{\beta^2 +1}{F} = \dfrac{\beta^2}{R} + \dfrac{1}{P}Fβ2+1=Rβ2+P1
β2=1\beta^2 = 1β2=1时,对于FFF,RRR、PPP 影响权重相同,即常用的F1F_1F1;β2>1\beta^2 > 1β2>1时,对于FFF,RRR相比于PPP影响权重大,当重视召回率R时可以选择β2>1\beta^2>1β2>1;β2<1\beta^2 < 1β2<1时,对于FFF,RRR相比于PPP影响权重小,当重视精确率P时可以选择β2<1\beta^2<1β2<1;
真阳性率TPR,又可称为灵敏度,关注真实情况,关注positive,TPR=TPTP+FNTPR = \dfrac{TP}{TP + FN}TPR=TP+FNTP。
灵敏度:正例被挑出的概率。如果一项诊断试验的灵敏度比较低,那么会出现很多假阴性的患者。这会延误患者的就诊,影响病程发展和愈后,甚至导致患者过早死亡。
假阳性率FPR,又等于1-特异度,关注真实情况,关注negative,FPR=FPFP+TNFPR = \dfrac{FP}{FP + TN}FPR=FP+TNFP。
特异度:负例被挑出的概率。如果一项诊断试验的特异度比较低,那么会出现很多假阳性的患者。这样会浪费医疗资源、造成患者无端的恐慌和焦虑。
当选择不同的threshold时,TPR、FPRTPR、FPRTPR、FPR值会随之变化,遍历所有的threshold后,会得到一系列的TPR、FPRTPR、FPRTPR、FPR,用TPRTPRTPR作为YYY轴,用FPRFPRFPR作为XXX轴,即得到ROCROCROC。
ROCROCROC主要作用:
ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。
AUC就是ROC曲线下的面积,衡量学习器优劣的一种性能指标。
KS
在风控中,我们常用KS指标来评估模型的区分度(discrimination)
KS=max(∣TPR−FPR∣)KS = \max(|TPR-FPR|)KS=max(∣TPR−FPR∣)
即ROC曲线切线位置。
《风控模型—区分度评估指标(KS)深入理解应用》