IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [导读]精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

    我爱机器学习(52ml.net)发表于 2016-09-25 06:14:25
    love 0

    来源:知乎
    原文链接:https://www.zhihu.com/question/30643044
    我爱机器学习编者按:基本原理周志华老师的《机器学习》书上介绍差不多了,相关关系的话推荐paper:The Relationship Between Precision-Recall and ROC Curves(ICML06) http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf
    AUC的实现方法:http://mark.goadrich.com/programs/AUC/ (能work,但性能很一般,如果经常用建议改写)

    精度、召回、F1点直观理解
    pr

    下文摘自:http://www.chmod764sean.com/computer-tec/data-mining-machine-learning/501.html (原链已挂,来自镜像)
    作者:sean

    2.ROC曲线和PR曲线的关系

    在ROC空间,ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是,PR曲线是右上凸效果越好。

    ROC和PR曲线都被用于评估机器学习算法对一个给定数据集的分类性能,每个数据集都包含固定数目的正样本和负样本。而ROC曲线和PR曲线之间有着很深的关系。

    定理1:对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系,也就是说,如果recall不等于0,二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线,反之亦然。

    定理2:对于一个给定数目的正负样本数据集,一条曲线在ROC空间中比另一条曲线有优势,当且仅当第一条曲线在PR空间中也比第二条曲线有优势。(这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。)

    证明过程见文章《The Relationship Between Precision-Recall and ROC Curves》

    当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,但是当负样本很多的时候,两者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。解释起来也简单,假设就1个正例,100个负例,那么基本上TPR可能一直维持在100左右,然后突然降到0.如图,(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线,二者比较接近。而(c)(d)的正负样本比例为1:1,这时ROC曲线效果依然很好,但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。



沪ICP备19023445号-2号
友情链接