1200字范文 > 混淆矩阵召回率精确率正确率 F1 真阳性率假阳性率 ROC AUC

混淆矩阵召回率精确率正确率 F1 真阳性率假阳性率 ROC AUC

时间：2022-02-01 06:40:08

ConfusionMatrix:Confusion Matrix:ConfusionMatrix:

召回率Recall=TPTP+FNRecall = \dfrac{TP}{TP + FN}Recall=TP+FNTP，关注真实情况，关注positive。“好瓜被挑出来的概率”

精确率Precision=TPTP+FPPrecision = \dfrac{TP}{TP + FP}Precision=TP+FPTP，关注预测情况，关注positive。“挑出来的瓜有多少真的是好瓜”

正确率Accuracy=TP+TNTP+FN+FP+TNAccuracy = \dfrac{TP + TN}{TP + FN + FP + TN}\quadAccuracy=TP+FN+FP+TNTP+TN，positive与negative预测的准确性

FFF值：

β2+1F=β2R+1P\dfrac{\beta^2 +1}{F} = \dfrac{\beta^2}{R} + \dfrac{1}{P}Fβ2+1=Rβ2+P1

β2=1\beta^2 = 1β2=1时，对于FFF，RRR、PPP 影响权重相同,即常用的F1F_1F1；β2>1\beta^2 > 1β2>1时，对于FFF，RRR相比于PPP影响权重大，当重视召回率R时可以选择β2>1\beta^2>1β2>1；β2<1\beta^2 < 1β2<1时，对于FFF，RRR相比于PPP影响权重小，当重视精确率P时可以选择β2<1\beta^2<1β2<1；

真阳性率TPR，又可称为灵敏度，关注真实情况，关注positive,TPR=TPTP+FNTPR = \dfrac{TP}{TP + FN}TPR=TP+FNTP。

灵敏度：正例被挑出的概率。如果一项诊断试验的灵敏度比较低，那么会出现很多假阴性的患者。这会延误患者的就诊，影响病程发展和愈后，甚至导致患者过早死亡。

假阳性率FPR，又等于1-特异度，关注真实情况，关注negative,FPR=FPFP+TNFPR = \dfrac{FP}{FP + TN}FPR=FP+TNFP。

特异度：负例被挑出的概率。如果一项诊断试验的特异度比较低，那么会出现很多假阳性的患者。这样会浪费医疗资源、造成患者无端的恐慌和焦虑。

当选择不同的threshold时，TPR、FPRTPR、FPRTPR、FPR值会随之变化，遍历所有的threshold后，会得到一系列的TPR、FPRTPR、FPRTPR、FPR，用TPRTPRTPR作为YYY轴，用FPRFPRFPR作为XXX轴，即得到ROCROCROC。

ROCROCROC主要作用:

ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。

有助于选择最佳的阈值。ROC曲线越靠近左上角，模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值，其假正例和假反例总数最少。

可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中，直观地鉴别优劣，靠近左上角的ROC曲所代表的学习器准确性最高。

AUC就是ROC曲线下的面积，衡量学习器优劣的一种性能指标。

在风控中，我们常用KS指标来评估模型的区分度（discrimination）

KS=max⁡(∣TPR−FPR∣)KS = \max(|TPR-FPR|)KS=max(∣TPR−FPR∣)