数据挖掘模型评价
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
accuracy sensitivity pos specificity neg 90%
( pos neg)
( pos neg)
2019/5/12
10
传统评估分类预测模型时,通常使用的是 “准确度”。它的功能是评估模型分类实 物是否正确。准确度越高模型就越好。
但事实上,这样评估出来的模型并不是最 好的。
预测值
1(实际 “cancer”)
0(实际 no_cancer)
1(预测“cancer”) 0
0
0(预测
10
s“ennsoi_ticvaintycer”t _) pos 0
pos
90
specificity t _ neg 100% neg
percΒιβλιοθήκη Baidusion
t _ pos
0
(t _ pos f _ pos)
2019/5/12
8
灵敏性
特效性
sensitivity t _ pos pos
specificity t _ neg neg
percision
t _ pos
精度
(t _ pos f _ pos)
accuracy sensitivity pos specificity neg
哪一家的模型更好呢?
由上可以发现,不能使用准确率来评判模型的优劣。
2019/5/12
13
原因在于两类错误,忽略了“错误不等价”。
如果把一个“会违约的人判断成不会违 约”,这家银行损失20~30万元的现金卡 卡金,但是如果将一个“不会违约的人错 判成违约”,只是划分了一些审查成本以 及可能因为保守给予额度而造成的机会成 本损失。
称作负样本)样本。但我们希望评估该分 类能够识别“cancer”(称作正样本)的 情况。
2019/5/12
7
为此,除用准确率评价分类模型外,还 需要使用灵敏性(sensitivity)和特效性 (specificity)度量。
还可以使用精度(precision)来度量, 即评估标记为“cancer”,实际是 “cancer”的样本百分比。
不相交的子集或“折”,每个折的大小大
致相等。训练和测试k次。在第i次迭代,第 i折用作测试集,其余的子集都用于训练分
类法。
准确率估计是k次迭代正确分类数除以初始 数据中的样本总数。
2019/5/12
4
装袋
给定样本s个样本的集合S,装袋过程如下。对于迭代 (t t 1, 2,...,T),训练集Si采用放回选样,由原始样本集S 选取。由于使用放回选样,S的某些样本可能不在St中,而 其他的可能出现多次。由每个训练集St学习,得到一个分 类法Ct。为对一个未知的样本X 分类,每个分类法Ct返回他 的类预测,算作一票。装袋的分类法C*统计得票,并将得票 最高的类赋予X。通过取得票的平均值,或者多数,装袋也 可以是连续值的预测。
因此两种误判所造成的效益影响是不等价 的。
2019/5/12
14
小概率事件:
所谓小概率事件是发生概率小,而且一定 是能够为企业界带来高度获利或严重损失 的事件。
由于小概率事件发生概率很小,如果针对 所有客户采取行动,就会形成浪费,因此, 需要利用预测的技术将小概率事件找出来。 那么,只针对预测的小概率事件采取行动 就会避免浪费。
2019/5/12
5
推进
在推进中,每个训练样本赋予一个权。学习得到 一系列分类法。学习得到分类法Ct后,对分类错误的 样本更新权重,使得下一次迭代更关注这些样本。
即使用相同的分类器,各个分类器不是独立的; 使用同一个算法对样本迭代训练,后建立的分类 器关注于先前建立的分类器不能更好处理的部分 数据;最终的输出为各个分类器的加权投票。
2019/5/12
2
“保持”这种评估方法是保守的,因为只有一 部分初始数据用于导出的分类法。
随机子选样是“保持”方法的一种变形,它将 “保持”方法重复k次。总体准确率估计取每次 迭代准确率的平均值。
2019/5/12
3
在k—折交叉确认(k—fold cross— validation)中,初试数据被划分成k个互
2019/5/12
6
假定你已经训练了一个分类法,将医疗数
据分类为“cancer”或“non_cancer”。 90%的准确率使得该分类法看上去相当准 确,但是如果实际只有3—4%的训练样本 是“cancer”会怎么样?
显然,90%的准确率是不能接受的——该 分类法只能正确的标记“non_cancer”(
银行和A公司签约。
2019/5/12
12
利用A公司的模型后,结果发现里面只有一条规则, 那就是“所有的人都不会违约”。
为什么?
A:所有的人都不会违约,因此它错误的只有8%的 违约分类错误(违约误判为不违约),因此准确率 是92%。
B:在根据评分由高至低筛选出来前40%的名单中, 可以将所有的违约户都找出来。即有32%的非违约 户被误判为违约户,因此准确率只有68%。
2019/5/12
11
例:某家银行发行现金卡,风险控管部门主 管决定建立DM模型,利用申请人申请当时 的所填的资料,建立违约预测模型,来作 为核发现金卡以及给予额度的标准。
该银行邀请两家DM公司来设计模型,评比 的标准是根据模型的“准确度”。
根据此标准,A公司所建模型的准确度92%, B公司的准确度是68%。
( pos neg)
( pos neg)
其中,t_pos是真正样本(被正确地按此分类的 “cancer”样本)数,pos是正(“cancer”)样本 数,
t_neg是真负样本(被正确地按此分类的 “non_cancer”样本)数,neg是负( “non_cancer”)样本数,
20而19/5f/_12pos假正样本(被错误地标记为“cancer”的 9
2019/5/12
1
评估分类法准确率的技术有保持(holdout)和k折交叉确认(k-fold cross-validation)方法。
另外,还有两种提供分类法准确率的策略:装袋 (bagging)和推进(boosting)。
1、保持和k-折交叉
①在保持方法中,给定数据随机划分成两个独立 的集合:训练集和测试集。通常,三分之二的数 据分配到训练集,其余三分之一分配到训练集。