分类算法评估指标 + 金融风控评估指标

admin

2020 年 12 月 22 日

630次浏览

暂无评论

1979字数

机器学习理论机器学习

1.混淆矩阵（Confuse Matrix）

（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative )

2.准确率（Accuracy）
准确率是常用的一个评价指标，但是不适合样本不均衡的情况。
$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

3.精确率（Precision）
又称查准率，正确预测为正样本（TP）占预测为正样本(TP+FP)的百分比。
$$Precision = \frac{TP}{TP + FP}$$

4.召回率（Recall）
又称为查全率，正确预测为正样本（TP）占正样本(TP+FN)的百分比。
$$Recall = \frac{TP}{TP + FN}$$

5.F1 Score
精确率和召回率是相互影响的，精确率升高则召回率下降，召回率升高则精确率下降，如果需要兼顾二者，就需要精确率、召回率的结合F1 Score。
$$F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}$$

6.P-R曲线（Precision-Recall Curve）
P-R曲线是描述精确率和召回率变化的曲线

7.ROC（Receiver Operating Characteristic）

ROC空间将假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴。

TPR：在所有实际为正例的样本中，被正确地判断为正例之比率。
$$TPR = \frac{TP}{TP + FN}$$
FPR：在所有实际为负例的样本中，被错误地判断为正例之比率。
$$FPR = \frac{FP}{FP + TN}$$

8.AUC(Area Under Curve)
AUC（Area Under Curve）被定义为 ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

对于金融风控预测类常见的评估指标如下:

1.KS(Kolmogorov-Smirnov)
KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中，KS常用于评估模型区分度。区分度越大，说明模型的风险排序能力（ranking ability）越强。
K-S曲线与ROC曲线类似，不同在于

ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。
公式如下：

$$KS=max(TPR-FPR)$$
KS不同代表的不同情况，一般情况KS值越大，模型的区分能力越强，但是也不是越大模型效果就越好，如果KS过大，模型可能存在异常，所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况，但此对应不是唯一的，只代表大致趋势。

KS（%）	好坏区分能力
20以下	不建议采用
20-40	较好
41-50	良好
51-60	很强
61-75	非常强
75以上	过于高，疑似存在问题

分类算法评估指标 + 金融风控评估指标

admin • 2020 年 12 月 22 日

1.混淆矩阵（Confuse Matrix）

（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative )

2.准确率（Accuracy）
准确率是常用的一个评价指标，但是不适合样本不均衡的情况。
$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

3.精确率（Precision）
又称查准率，正确预测为正样本（TP）占预测为正样本(TP+FP)的百分比。
$$Precision = \frac{TP}{TP + FP}$$

4.召回率（Recall）
又称为查全率，正确预测为正样本（TP）占正样本(TP+FN)的百分比。
$$Recall = \frac{TP}{TP + FN}$$

6.P-R曲线（Precision-Recall Curve）
P-R曲线是描述精确率和召回率变化的曲线

7.ROC（Receiver Operating Characteristic）

ROC空间将假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴。

对于金融风控预测类常见的评估指标如下:

ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。
公式如下：

KS（%）	好坏区分能力
20以下	不建议采用
20-40	较好
41-50	良好
51-60	很强
61-75	非常强
75以上	过于高，疑似存在问题

分类算法评估指标 + 金融风控评估指标

对于金融风控预测类常见的评估指标如下:

发表评论取消回复

广义拉格朗日函数及其对偶算法

支持向量机SVM 系列(1)——线性可分支持向量机

支持向量机SVM 系列(2)——对偶方法(Dual Method)

支持向量机SVM 系列(3)——核函数(Kernel Function)

支持向量机SVM 系列(4)——软间隔(soft-margin SVM)

Feature Engineering 特征工程操作汇总

广义拉格朗日函数及其对偶算法

Hadoop学习记录3：Yarn基础原理

Kaggle 比赛 Santander

Hadoop学习记录1：HDFS基础原理

分类算法评估指标 + 金融风控评估指标

对于金融风控预测类常见的评估指标如下:

对于金融风控预测类常见的评估指标如下:

发表评论 取消回复

分类算法评估指标 + 金融风控评估指标

对于金融风控预测类常见的评估指标如下:

发表评论取消回复