对于模型的python roc曲线绘制，与哪一点越接近，表明该分类器性能越好

点击联系发帖人 时间：2017-09-14 03:23

roc曲线截断点的选取

您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
概率混淆熵分类器评价方法与研究.pdf 82页
本文档一共被下载：
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值，立即自动返金币，充值渠道很便利
需要金币：200 &&
优秀毕业论文，完美PDF格式，可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考！！！
你可能关注的文档：
··········
··········
现今，分类技术作为数据挖掘领域中一项重要技术，不仅应用在机器学习、
模式识别等科学研究中，也广泛应用在实际生活中的各个方面。一个分类器可
以被付诸应用的前提是此分类器性能的良好程度是可以被接受的，因此如何更
好地评价和选择分类器成为模式识别领域一个至关重要的问题。
首先，本文介绍了分类器的概念，并分析了分类器评价方法的研究现状。
虽然目前已经提出很多分类器评价指标，这些指标可以从不同方面对分类器性
能进行评价，但没有一种评价指标可以从各方面综合评价一个分类器的性能。
另一方面，大部分评价指标是直接定义在二类的问题上的，然而多类问题上的
分类器性能评价要复杂于二类问题，这尤其体现在评价一个分类器将各类样本
区分开的能力时。本文致力于面向多类问题的分类器评价指标的研究，综合分
析现有的分类器评价指标的优缺点，提出更加综合和精确的分类器评价指标。
其次，本文介绍了概率混淆熵评价指标提出的理论基础，提出了概率混淆
矩阵的概念以及三种概率混淆熵评价方法的定义，即相对概率混淆熵(rpCEN)，
概率混淆熵(pCEN)和基于排序的概率混淆熵(spCEN)。三种概率混淆熵评价方法
的计算分别基于不同的概率混淆矩阵。一个基本的概率混淆矩阵可以表示为
[尸f，，】，其中元素R，，表示真实类别为i类的样本被分到J类的平均概率。概率
混淆熵评价方法是直接定义在多类问题上的评价指标，相比于定义在二类问题
上的评价指标，概率混淆熵评价指标更多地利用了分类中的错误分类信息，不
仅利用了真实类别为i的样本是如何被错误地分到其他各个类别中的信息，而且
利用了其它各个类别中的样本是如何被错误地分到第i类的信息。另一方面，三
种概率混淆熵评价方法将样本分为不同类的概率信息加入到分类器性能评价
中，使其可以更精确更全面地评价分类器性能。
最后，本文设计了两个实验，实验一用于验证概率混淆熵评价方法的可行
性，实验二将本文所提出的三种新指标分别与基于差错的评价指标，基于概率
的评价指标及AUC变体指标进行性能比较，并对三种新指标进行性能比较。实
验结果显示三种新指标在分类器性能评价时具有其优越性，并且在一般情况下，
三种新指标中pCEN性能为最佳，rpCEN性能为次佳，spCEN最差。
关键词：分类器评价指标概率混淆矩阵概率混淆熵
area，classification
technique mining
Nowadays．asimportant
usedinmachine
recognition
learningpattern
beingwidely
be inuse its
classifierCall
onlyperformance
inreal．world．A
classifcation
isessential
classifiere
正在加载中，请稍后...二分类模型性能评价（ROC曲线，lift曲线，lorenz曲线）
解决分类问题有多种思路，包括应用支持向量机、决策树等算法。还有一种较常规的做法是采用广义线性回归中的logistic回归或probit回归。广义线性回归是探索“响应变量的期望”与“自变量”的关系，以实现对非线性关系的某种拟合。这里面涉及到一个“连接函数”和一个“误差函数”，“响应变量的期望”经过连接函数作用后，与“自变量”存在线性关系。选取不同的“连接函数”与“误差函数”可以构造不同的广义回归模型。当误差函数取“二项分布”而连接函数取“logit函数”时，就是常见的“logistic回归模型”，在0-1响应的问题中得到了大量的应用。
logistic回归的公式可以表示为：
其中P是响应变量取1的概率，在0-1变量的情形中，这个概率就等于响应变量的期望。
这个公式也可以写成：
可以看出，logistic回归是对0-1响应变量的期望做logit变换，然后与自变量做线性回归。参数估计采用极大似然估计，显著性检验采用似然比检验。
建立模型并根据AIC准则选择模型后，可以对未知数据集进行预测，从而实现分类。模型预测的结果是得到每一个样本的响应变量取1的概率，为了得到分类结果，需要设定一个阈值p0——当p大于p0时，认为该样本的响应变量为1，否则为0。阈值大小对模型的预测效果有较大影响，需要进一步考虑。首先必须明确模型预测效果的评价指标。
对于0-1变量的二分类问题，分类的最终结果可以用表格表示为：
其中，d是“实际为1而预测为1”的样本个数，c是“实际为1而预测为0”的样本个数，其余依此类推。
显然地，主对角线所占的比重越大，则预测效果越佳，这也是一个基本的评价指标——总体准确率(a+d)/(a+b+c+d)。
通常将上述矩阵称为“分类矩阵”。一般情况下，我们比较关注响应变量取1的情形，将其称为Positive（正例），而将响应变量取0的情形称为Negative（负例）。常见的例子包括生物实验的响应、营销推广的响应以及信用评分中的违约等等。针对不同的问题与目的，我们通常采用ROC曲线与lift曲线作为评价logistic回归模型的指标。
一、ROC曲线
正因为我们比较关注正例的情形，所以设置了两个相应的指标：TPR与FPR。
TPR：True Positive Rate，将实际的1正确地预测为1的概率，d/(c+d)。
FPR：False Positive Rate，将实际的0错误地预测为1的概率，b/(a+b)。
TPR也称为Sensitivity（即生物统计学中的敏感度），在这里也可以称为“正例的覆盖率”——将实际为1的样本数找出来的概率。覆盖率是重要的指标，例如若分类的目标是找出潜在的劣质客户（响应变量取值为1），则覆盖率越大表示越多的劣质客户被找出。
类似地，1-FPR其实就是“负例的覆盖率”，也就是把负例正确地识别为负例的概率。
TPR与FPR相互影响，而我们希望能够使TPR尽量地大，而FPR尽量地小。影响TPR与FPR的重要因素就是上文提到的“阈值”。当阈值为0时，所有的样本都被预测为正例，因此TPR=1，而FPR=1。此时的FPR过大，无法实现分类的效果。随着阈值逐渐增大，被预测为正例的样本数逐渐减少，TPR和FPR各自减小，当阈值增大至1时，没有样本被预测为正例，此时TPR=0，FPR=0。
由上述变化过程可以看出，TPR与FPR存在同方向变化的关系（这种关系一般是非线性的），即，为了提升TPR（通过降低阈值），意味着FPR也将得到提升，两者之间存在类似相互制约的关系。我们希望能够在牺牲较少FPR的基础上尽可能地提高TPR，由此画出了ROC曲线。
ROC曲线的全称为“接受者操作特性曲线”（receiver operating
characteristic），其基本形式为：
当预测效果较好时，ROC曲线凸向左上角的顶点。平移图中对角线，与ROC曲线相切，可以得到TPR较大而FPR较小的点。模型效果越好，则ROC曲线越远离对角线，极端的情形是ROC曲线经过（0，1）点，即将正例全部预测为正例而将负例全部预测为负例。ROC曲线下的面积可以定量地评价模型的效果，记作AUC，AUC越大则模型效果越好。
由于ROC曲线描述了在TPR与FPR之间的取舍，因此我一般将其理解为投入产出曲线，receive of
cost。（事实上我理解错了。相对而言lorenz曲线更适合这个名字。当然啦其实FPR可以理解为另一种cost。）
当我们分类的目标是将正例识别出来时（例如识别有违约倾向的信用卡客户），我们关注TPR，此时ROC曲线是评价模型效果的准绳。
二、lift曲线
在营销推广活动（例如DM信）中，我们的首要目标并不是尽可能多地找出那些潜在客户，而是提高客户的响应率。客户响应率是影响投入产出比的重要因素。此时，我们关注的不再是TPR（覆盖率），而是另一个指标：命中率。
回顾前面介绍的分类矩阵，正例的命中率是指预测为正例的样本中的真实正例的比例，即d/(b+d)，一般记作PV。
在不使用模型的情况下，我们用先验概率估计正例的比例，即(c+d)/(a+b+c+d)，可以记为k。
定义提升值lift=PV/k。
lift揭示了logistic模型的效果。例如，若经验告诉我们10000个消费者中有1000个是我们的潜在客户，则我们向这10000个消费者发放传单的效率是10%（即客户的响应率是10%），k=(c+d)/(a+b+c+d)=10%。通过对这10000个消费者进行研究，建立logistic回归模型进行分类，我们得到有可能比较积极的1000个消费者，b+d=1000。如果此时这1000个消费者中有300个是我们的潜在客户，d=300，则命中率PV为30%。
此时，我们的提升值lift=30%/10%=3，客户的响应率提升至原先的三倍，提高了投入产出比。
为了画lift图，需要定义一个新的概念depth深度，这是预测为正例的比例，(b+d)/(a+b+c+d)。
与ROC曲线中的TPR和FPR相同，lift和depth也都受到阈值的影响。
当阈值为0时，所有的样本都被预测为正例，因此depth=1，而PV=d/(b+d)=(0+d)/(0+b+0+d)=k，于是lift=1，模型未起提升作用。随着阈值逐渐增大，被预测为正例的样本数逐渐减少，depth减小，而较少的预测正例样本中的真实正例比例逐渐增大。当阈值增大至1时，没有样本被预测为正例，此时depth=0，而lift=0/0。
由此可见，lift与depth存在相反方向变化的关系。在此基础上作出lift图：
与ROC曲线不同，lift曲线凸向（0，1）点。我们希望在尽量大的depth下得到尽量大的lift（当然要大于1），也就是说这条曲线的右半部分应该尽量陡峭。
至此，我们对ROC曲线和lift曲线进行了描述。这两个指标都能够评价logistic回归模型的效果，只是分别适用于不同的问题：
如果是类似信用评分的问题，希望能够尽可能完全地识别出那些有违约风险的客户（不使一人漏网），我们需要考虑尽量增大TPR（覆盖率），同时减小FPR（减少误杀），因此选择ROC曲线及相应的AUC作为指标；
如果是做类似数据库精确营销的项目，希望能够通过对全体消费者的分类而得到具有较高响应率的客户群，从而提高投入产出比，我们需要考虑尽量提高lift（提升度），同时depth不能太小（如果只给一个消费者发放传单，虽然响应率较大，却无法得到足够多的响应），因此选择lift曲线作为指标。
按照惯例，我们来做一个试验。试验的问题来自我的毕业论文，研究高炉铁水硅质量分数的波动情况。
简单地说，我们的响应变量是高炉铁水硅质量分数的波动方向，记作SI0，当其取1时，表示本炉铁水硅质量分数比上一炉小，当其取0时，表示本炉铁水硅质量分数比上一炉大。（之所以这样设定，是因为通常情况下更需要关注炉温向凉的情形。）自变量选取为前一炉硅质量分数、前一炉料速、前一炉风量、前两炉料速。
选取了350炉数据，分为两组，分别用于建模与预测
a=data[1:250,]
b=data[251:350,]
SI0 SI1 LS1 FL1 LS2
1 1 0.1347
2 0 0.8203
3 0 0.3116
建立logistic回归模型
glm.logit=glm(SI0~.,data=a,family=binomial(link=logit))
summary(glm.logit)
计算预测值
p=predict(glm.logit,b)
p=exp(p)/(1+exp(p))
将阈值定为0.5，得到分类结果
b$SI0pred=1*(p&0.5)
table(b[,c(1,6)])
绘制ROC曲线
TPR=rep(0,1000)
FPR=rep(0,1000)
for(i in 1:1000){
p0=i/1000;
SI0.true=b$SI0
SI0.pred=1*(p&p0)
TPR[i]=sum(SI0.pred*SI0.true)/sum(SI0.true)
FPR[i]=sum(SI0.pred*(1-SI0.true))/sum(1-SI0.true)}
plot(FPR,TPR,type="l",col=2)
points(c(0,1),c(0,1),type="l",lty=2)
这是之前的1.0版本，里面有一些基本概念。
首先，ROC曲线是tpr与fpr的相关关系可视化，这种衡量所考虑的目的是在尽量少的误诊（假阳性率）基础上，尽可能多地检验出阳性个体。因此，我在网络上看到讨论ROC的大多都是医药工作者或者做信用评分的工程师。而ROC曲线在我们项目中则是比较不常用的一个指标。因为在市场营销方面，客户往往并不那么关心“误诊”（这或许也是一定程度的短视），他们更在乎的是产出以及投入产出比。因此，lift曲线和lorenz曲线是相对而言更常用的可视化指标。
其次，lift曲线也并不是那么常用。lift曲线很容易解释，就是“用模型以后使得我们投放广告的客户群的响应率有所提升”，而其表现形式则是不同挖掘深度所对应的不同提升度。相对于lorenz曲线来说，lift曲线跟ROC曲线有一个明显的特点：衡量模型在不同阈值下的表现。也就是说，这两种曲线描述的其实都是一堆模型的性能。（事实上lorenz曲线也是这样，但解释起来会更为隐蔽。）客户往往很困惑，他们想要明白的只是我们提供的这个模型的性能，而不是我们所采用的这种建模方法的性能。所以，很多时候lift不需要画曲线，单个或几个lift的数值本身就很有说服力并且很直观了。
最后，lorenz曲线是我们比较常用的表现手段。（至少我的领导是这样。）在分类模型的性能评价中，lorenz曲线是对投入产出的一种衡量，它的形状跟ROC很像。曲线的横轴是logit模型预测值（p）排序后的一系列分位点，纵轴是截止到相应分位点所对应的样本中"1"的量占全体"1"的比例。这么说可能很不清楚，先来贴个图。
可以认为，lorenz曲线的横轴就是lift曲线中涉及到的深度depth，也就是：将样本的预测为1的概率从大到小排序后，取前百分之几。通常会简化成十分位点，0%,10%,20%,...,90%,100%。而曲线的纵轴其实就是相对应的TPR。形象地说，就是我们面对着一堆人（1000个），这堆人里面有20个坏人，我们的目标就是抓坏人。通过模型计算，我们把这堆人按照可能是坏人的概率从大到小地排了队，然后我们抓取前一百名，在这前一百名里面，可能就有13个坏人了（因为这一百个人的是坏人的概率比较高嘛），也就是说我们只抓取10%的样本，但是抓到了65%的目标。从lift的角度也可以很好地理解这种提升效果，而lorenz则更形象地展示了这种投入产出比的含义。
从某种角度看，这里的lorenz曲线与洛伦兹曲线的原始意义是很相似的。洛伦兹曲线的本意是描述社会财富的不平均分配。百度的解释：洛伦兹曲线（Lorenz
curve），就是在一个总体（国家、地区）内，以最贫穷的人口计算起一直到最富有人口的人口百分比对应各个人口百分比的收入百分比的点组成的曲线。（我们这里可能是要反着排序。无伤大雅。）换一种更通俗的说法，这就是20/80原则——20%的人占据了80%的财富。lorenze曲线体现了这一点，通常是很早（20%）就达到比较高的水平（80%），然后再缓慢上升。
如果社会财富是平均分配的，那么lorenz曲线将会是一条对角线。（这条对角线跟ROC里面一样，是我们的对照组。）与之类似地，当没有模型的时候，坏人在人群中是平均分布的，这时的lorenz曲线也是一条对角线（也就是我们随机抓50%的人，这里面会抓到坏人的50%）。因此，lorenz曲线本质上是衡量了我们的模型对概率大小的排序的准确性——排序越准确，lorenz曲线就越远离对角线并凸向左上角。（这也跟ROC有点像。）
以上就是截至目前我对分类模型性能评价（主要是lorenz曲线）的一些理解，必然还需要进一步学习。
但是至少显然地，用lorenz曲线进行展示的时候可以加入很直观的解释，客户往往能够比较轻松地理解。所以领导让我写logit回归的时候，一并把lorenz曲线也画了出来。
早起上班。索性修改了之前画ROC的代码（那是仿照里的例子写的），以便跟lorenz融合起来。
可以发现，ROC曲线跟lorenz曲线在形状上是很接近的。
我对此的理解是：在某种情况下，depth跟fpr是很接近的数字。这仍然可以从混淆矩阵看出来。
fpr = (b) / (a+b)
depth = (b+d) / (a+b+c+d)
而某些情况下（例如我例子中使用的一个信用数据），实际值取1的样本是比较少的，
也就是说c和d都很小，结果就导致fpr跟depth在数字上很接近，从而使得ROC与lorenz曲线在形状上很相似。
最后照例是贴个代码。
跟ROC类似，Lift（提升）和Gain（增益）也一样能简单地从以及Sensitivity、Specificity等信息中推导而来，也有跟一个baseline
model的比较，然后也是很容易画出来，很容易解释。以下先修知识，包括所需的数据集：
说，混淆矩阵(Confusion Matrix)是我们永远值得信赖的朋友：
&&&&&&&&&&&&&&&&&&&
d, True Positive&
c, False Negative&
c+d, Actual Positive
b, False Positive&
a, True Negative&
a+b, Actual Negative
b+d, Predicted Positive&
a+c, Predicted Negative
几个术语需要随时记起：
1. Sensitivity（覆盖率，True Positive Rate）=正确预测到的正例数/实际正例总数
Recall (True Positive Rate，or Sensitivity) =true positive/total
actual positive=d/c+d
2. PV+ (命中率，Precision, Positive Predicted Value)
=正确预测到的正例数/预测正例总数
Precision (Positive Predicted Value, PV+) =true positive/ total
predicted positive=d/b+d
3. Specificity (负例的覆盖率，True Negative Rate)
=正确预测到的负例个数/实际负例总数
Specificity (True Negative Rate) =true negative/total actual
negative=a/a+b
首先记我们valid数据中，正例的比例为pi1（念做pai
1），在我们的例子中，它等于c+d/a+b+c+d=0.365。单独提出pi1，是因为有时考虑oversampling后的一些小调整，比如正例的比例只有0.001，但我们把它调整为0.365（此时要在SAS
logistic回归的score语句加一个priorevent=0.001选项）。本文不涉及oversampling。现在定义些新变量：
Ptp=proportion of true positives=d/a+b+c+d=(c+d/a+b+c+d)*(d/c+d)
=pi1* Sensitivity，正确预测到的正例个数占总观测值的比例
Pfp=proportion of false positives=b/a+b+c+d=
(a+b/a+b+c+d)*(b/a+b) = (1-c+d/a+b+c+d)*(1-a/a+b) = (1-pi1)*(1-
Specificity) ，把负例错误地预测成正例的个数占总数的比例
Depth=proportion allocated to class
1=b+d/a+b+c+d=Ptp+Pfp，预测成正例的比例
PV_plus=Precision (Positive Predicted Value, PV+) =
d/b+d=Ptp/depth，正确预测到的正例数占预测正例总数的比例
Lift= (d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1，提升值，解释见下节。
以上都可以利用valid_roc数据计算出来：
%let pi1=0.365;
data&valid_
set valid_
cutoff=_PROB_;
Ptp=&pi1*_SENSIT_;
Pfp=(1-&pi1)*_1MSPEC_;
depth=Ptp+P
PV_plus=Ptp/
lift=PV_plus/&pi1;
keep cutoff _SENSIT_ _1MSPEC_ depth PV_
先前我们说ROC curve是不同阈值下Sensitivity和1-Specificity的轨迹，类似，
Lift chart是不同阈值下Lift和Depth的轨迹
Gains chart是不同阈值下PV+和Depth的轨迹
(d/b+d)/(c+d/a+b+c+d)=PV_plus/pi1)，这个指标需要多说两句。它衡量的是，与不利用模型相比，模型的预测能力“变好”
了多少。不利用模型，我们只能利用“正例的比例是c+d/a+b+c+d”这个样本信息来估计正例的比例（baseline
model），而利用模型之后，我们不需要从整个样本中来挑选正例，只需要从我们预测为正例的那个样本的子集（b+d）中挑选正例，这时预测的准确率为
显然，lift(提升指数)越大，模型的运行效果越好。如果这个模型的预测能力跟baseline
model一样，那么d/b+d就等于c+d/a+b+c+d（lift等于1），这个模型就没有任何“提升”了（套一句金融市场的话，它的业绩没有跑过市场）。这个概念在数据库营销中非常有用，举个：
比如说你要向选定的1000人邮寄调查问卷（a+b+c+d=1000）。以往的经验告诉你大概20%的人会把填好的问卷寄回给你，即1000人中有200人会对你的问卷作出回应（response，c+d=200），用统计学的术语，我们说baseline
response rate是20%（c+d/a+b+c+d=20%）。
如果你现在就漫天邮寄问卷，1000份你期望能收回200份，这可能达不到一次问卷调查所要求的回收率，比如说工作手册规定邮寄问卷回收率要在25%以上。
通过以前的问卷调查，你收集了关于问卷采访对象的相关资料，比如说年龄、教育程度之类。利用这些数据，你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型，这个模型把这1000人分了类，现在你可以从你的千人名单中挑选出反应最积极的100人来（b+d=100），这
10%的人的反应率 (response rate)为60%（d/b+d=60%，d=60）。那么，对这100人的群体（我们称之为Top
10%），通过运用我们的模型，相对的提升(lift
value)就为60%/20%=3；换句话说，与不运用模型而随机选择相比，运用模型而挑选，效果提升了3倍。
上面说lift chart是不同阈值下Lift和Depth的轨迹，先画出来：
symbol i=join v=none c=
proc&gplot&data=valid_
plot lift*
run;&quit;
上图的纵坐标是lift，意义已经很清楚。横坐标depth需要多提一句。以前说过，随着阈值的减小，更多的客户就会被归为正例，也就是
depth（预测成正例的比例）变大。当阈值设得够大，只有一小部分观测值会归为正例，但这一小部分（一小撮）一定是最具有正例特征的观测值集合（用上面数据库营销的例子来说，这一部分人群对邮寄问卷反应最为活跃），所以在这个depth下，对应的lift值最大。
同样，当阈值设定得足够的小，那么几乎所有的观测值都会被归为正例（depth几乎为1）——这时分类的效果就跟baseline
model差不多了，相对应的lift值就接近于1。
一个好的分类模型，就是要偏离baseline
model足够远。在lift图中，表现就是，在depth为1之前，lift一直保持较高的（大于1的）数值，也即曲线足够的陡峭。
Gains (增益) 与 Lift （提升）相当类似：Lift chart是不同阈值下Lift和Depth的轨迹，Gains
chart是不同阈值下PV+和Depth的轨迹，而PV+=lift*pi1=
d/b+d（见上），所以它们显而易见的区别就在于纵轴刻度的不同：
symbol i=join v=none c=
proc&gplot&data=valid_
plot pv_plus*
run;&quit;
上图阈值的变化，含义与lift图一样。随着阈值的减小，更多的客户就会被归为正例，也就是depth（预测成正例的比例，b+d/a+b+c+d）变大（b+d变大），这样PV+（d/b+d，正确预测到的正例数占预测正例总数的比例）就相应减小。当阈值设定得足够的小，那么几乎所有的观测值都会被归为正例（depth几乎为1），那么PV+就等于数据中正例的比例pi1了（这里是0.365。在Lift那一节里，我们说此时分类的效果就跟baseline
model差不多，相对应的lift值就接近于1，而PV+=lift*pi1。Lift的baseline
model是纵轴上恒等于1的水平线，而Gains的baseline model是纵轴上恒等于pi1的水平线）。显然，跟lift
图类似，一个好的分类模型，在阈值变大时，相应的PV+就要变大，曲线足够陡峭。
以上提到的ROC、Lift、Gains，都是基于混淆矩阵及其派生出来的几个指标（Sensitivity和Specificity等等）。如果愿意，你随意组合几个指标，展示到二维空间，就是一种跟ROC平行的评估图。比如，你plot
Sensitivity*Depth一把，就出一个新图了，——很不幸，这个图叫做Lorentz
Curve（劳伦兹曲线），不过你还可以尝试一下别的组合，然后凑一个合理的解释。
chart是不同阈值下PV+和Depth的轨迹（Lift与之类似），而ROC是sensitivity和1-Specificity的对应，前面还提到，Sensitivity（覆盖率，True
Rate）在欺诈监控方面更有用（所以ROC更适合出现在这个场合），而PV+在数据库营销里面更有用（这里多用Gains/Lift）。
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。newROC_SVM 根据计算的灵敏性特异性，绘制ROC曲线，相应的AUC Algorithm 数学
238万源代码下载-
&文件名称: newROC_SVM
& & & & &&]
&&所属分类:
&&开发工具: matlab
&&文件大小: 1 KB
&&上传时间:
&&下载次数: 25
&&提供者:
&详细说明：根据计算的灵敏性特异性，绘制ROC曲线，计算相应的AUC-According to the calculated sensitivity specificity, rendering the ROC curve, calculate the corresponding AUC
文件列表(点击判断是否您需要的文件，如果是垃圾请在下面评价投诉):
&&newROC_SVM.m
&近期下载过的用户:
&相关搜索:
&输入关键字，在本站238万海量源码库中尽情搜索：
&[] - 本程序是用经验模态分解(EMD)算法检测VF信号的，该算法的灵敏度和特异性都达到了90 以上。
&[] - ECG feature extraction and clasiffication for biometric
&[] - 基因选择算法
基因选择算法
基因选择算法
&[] - 改进的支持向量机工具，直接输入测试集合训练集，得到训练模型的roc图像和auc值
&[] - ROC curves illustrate performance on a binary classification problem where classification is based on simply thresholding a set of scores at varying l
&[] - Program to plot ROC curve for DC level in White gaussian noise
&[] - 简单实用的ROC曲线计算，多用于医学领域，是评价分类器性能的优越指标
&[] - it shows the ROC plot
&[] - 画roc曲线的matlab程序，roc曲线又称操作特性曲线
程序注释很详细
曲线的画法源代码方便广大初学者应用}

常信村百科网