干货|ROC曲线原理_学术资讯

您的位置：学术资讯 » 正文

干货|ROC曲线原理

阅读： 2023/4/17 16:21:21

一、背景介绍
在介绍ROC曲线之前，首先来介绍一下预测模型的背景。
（一）预测模型建模流程简介
1.利用数据中的训练集进行模拟的生成。
2.利用测试集进行模型的评测。
3.将评测的结果反馈给生成模型。
4.若评测结果比较满意，进行生成模型的输出，否则重新生成。
那么测试集如何评测预测模型？这里引出混淆矩阵的概念。
（二）混淆矩阵
混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，常用来预测模型的准确率。
图1 混淆矩阵
P：样本中的正例，n：样本中的负例
Y：通过模型预测出来样本中的正列，N：通过模型预测出来样本中的负列
TP(True Positives)：本来是正列，通过模型预测出来也是正列
FP(False Positives)：本来是负列，通过模型预测出来也是正列
预测模型准确率accuracy=(TP+TN)/(P+n)
（三）案例分析
表1 原始数据
从表1可以看出，有20个观测值，结局有1和0两种状态，分别代表着阳性和阴性。类似于Logistic回归当中某个人是否患疾病，患病为1，不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢？
首先将这组数据的预测概率按照从大到小的顺序进行排列。一般的二分类的实现方法就是选择一个阈值，将大于这个阈值的样本认为是正例，小于这个阈值的样本认为是反例。如果以0.54为阈值，将预测概率0.54设置为阳性，预测概率小于0.54设置为阴性。
表2 以0.54为阈值的预测结局
从表2中可以看出前6个数据预测结局为阳性，其他14个数据预测结局为阴性。计算它的混淆矩阵如表3，真实结局中有10个1和10个0。但是预测结局的阳性数有6个，其中有5个是真实阳性，有1个是真实阴性。第三个观测值结局本来是阴性的，但预测结局是阳性的，这个观测值预测错误。同理，预测结局的阴性数有14个，其中有9个是真实阴性，有5个是真实阳性。第九个观测值结局本来是阳性的，但预测结局是阴性的，这个观测值预测错误。
表3 混淆矩阵表
真阳率是指本来是阳性的，预测出的结果也是阳性的。假阳率是指本来是阴性的，但预测出的结果是阳性的。从表3中可以看出，在真实阳性数这一竖列中，预测正确的观测值有5个，所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这一竖列中，预测正确的观测值有1个，所以假阳率(FPR)=1/n=1/10=0.1。
同理真阴率(TNR)=9/10=0.1，假阴率(FNR)=5/10=0.5。
表4 真阳率和假阳率
从表4可以看出，以0.54为阈值，作出来的混淆矩阵真阳率为0.5，假阳率为0.1。真阳率和假阳率是以每一次相应的预测概率为阈值，算出混淆矩阵而得到的。
将1-20每个样本的评分均作为分类器的判定阈值，可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建立一个直角坐标系，就可以得到图2。
图2 TPR和FPR的有序数对
二、ROC曲线概念
ROC曲线：受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。
采用真阳性率和假阳性率作出的曲线，适用于诊断试验结果为连续变量。试验的真阳性率（Sen）为纵坐标（Y），假阳性率（1-Spe）为横坐标（X），坐标轴上的率值由0~1或0%~100%。
图3 ROC曲线示意图
横轴FPR：1-TPR，1-Specificity，FPR越大，预测正类中实际负类越多。
纵轴TPR：Sensitivity，TPR越大，预测正类中实际正类越多。
理想目标：TPR=1，TPR=0，即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45°对角线越好，Sensitivity、Specificity越大效果越好。
三、最佳阈值的确定——约登指数
约登指数（Youden index，YI）：是评价筛查试验真实性的方法，假设其假阴性和假阳性的危害性同等意义时，即可应用约登指数。
约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越大说明筛查试验的效果越好，真实性越大。
从表中可以看出，真阳率与假阳率的差值就是约登指数，最大的约登指数为0.4，0.4对应的预测概率为0.54，大于0.54认为是阳性的，小于0.54认为是阴性的。0.54就是最佳阈值。
四、AUC概念
AUC(Area Under Curve)值为ROC曲线下方的面积大小。显然，AUC越大，预测效果越好。
AUC=1，是完美分类器，采用这个预测模型时，不管设定什么截断点都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5，优于随机猜测。这个预测模型妥善设定截断点的话，能有预测价值。
AUC=0.5，跟随机猜测一样（例：抛硬币），模型没有预测价值。
AUC<0.5，比随机猜测还差，但只要总是反预测而行，就优于随机预测。
图4 包含AUC值的ROC曲线
附MATLAB程序
来源：统计家园
转自：“斐然智达SCI学术服务”微信公众号
如有侵权，请联系本站删除！

浏览(333)

点赞(0)

收藏(0)

上一篇：在PyMOL中使用ChatGPT，效率拉满！

下一篇：干货|SCI论文投稿很忌讳的一些事情

期刊动态更多

万维投稿交流群	纯自助论文投稿平台
版权所有 Copyright@2023 豫ICP备2021036211号	客服邮箱：eshukan@163.com

	—— 要投稿，上万维，轻松学术交流	严正声明本站非期刊官网，非中介代理，不向作者收取任何费用！举报微信：13140028228 冯老师
态度公正、信息求实、投稿自助、使用免费

严正声明

干货|ROC曲线原理