数据挖掘模型选择课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘模型选择
K-折交叉验证法
当K=m时,则得到“留一法”(leave-one-out, LOO)
数据挖掘模型选择
自助法
• 基于“自助采样”(bootstrap sampling)
– Pull up by your own bootstraps – 有放回采样、可重复采样 – 训练集与原样本集同规模 – 数据分布有所改变 – 约有36.8%的样本不出现
I(
f
(xi )
¹
yi )
• 精度
å acc(
f ;D)
=
1 m
m i=1
I(
f
(xi
)
=
yi )
=1-
E(
f ;D)
数据挖掘模型选择
性能度量-查准率与查全率
• 查准率:precision,准确率,P
– 预测结果中是正例的比率
• 查全率:recall,sensitivity, 召回率, R
– 所有的正例中被正确预测出的比列
• 定义:通过构建并结合多个学习器来完成学习任 务,又称为:多分类学习器系统、基于委员会的
学习等。
• 两大类
– 个体学习器间存在强依赖关系,必须串行生产 的序列化方法: Boosting
– 个体学习器间不存在强依赖关系,可同时生成 的并行化方法:Bagging and Random Forest
数据挖掘模型选择
集成学习-随机森林
• Bagging 策略
– bootstrap aggregation – 从样本集中重采样(有重复的)选出n个样本 – 在所有属性上,对这n个样本建立分类器(ID3、
C4.5、CART、SVM、Logistic回归等) – 重复以上两步m次,即获得了m个分类器 – 将数据放在这m个分类器上,最后根据这m个
包外估计:out-of-bag estimation 数据挖掘模型选择
模型选择
• 三个关键问题:
– 如何获得测试结果 – 如何评估性能优劣 – 如何判断实质差别
评估方法 性能度量 比较检验
数据挖掘模型选择
性Βιβλιοθήκη Baidu度量
• 性能度量(performance measure)是衡量 模型泛化能力的评价标准,反映了任务需 求
PR图:
学习器A优于学习器C 学习器B优于学习器C 学习器A??学习器B
平衡点 (BEP)
(Break-Even Point, ) 学习器A优于学习器B 学习器A优于学习器C 学习器B优于学习器C
数据挖掘模型选择
性能度量-F1度量
数据挖掘模型选择
性能度量-ROC与AUC
数据挖掘模型选择
集成学习
评估方法 性能度量 比较检验
数据挖掘模型选择
评估方法
• 关键:怎么获得“测试集”?
– 原则:测试集与训练集“互斥”
• 常见方法:
– 留出法(hold-out) – 交叉验证法(cross validation) – 自助法(bootstrap)
数据挖掘模型选择
留出法
• 保持数据分布一致性(例如:分层采样) • 多次重复划分(例如:100次随机划分) • 测试集不能太大、不能太小(例如:1/5~1/3)
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
数据挖掘模型选择
分类器的投票结果,决定数据属于哪一类
数据挖掘模型选择
数据挖掘模型选择
• 随机森林在bagging基础上做了修改。
– 从样本集中用Bootstrap采样选出n个样本; – 从所有属性中随机选择k个属性,选择最佳分
割属性作为节点建立CART决策树; – 重复以上两步m次,即建立了m棵CART决策树 – 这m个CART形成随机森林,通过投票表决结
• 使用不同的性能度量往往会导致不同的评 判结果
• 什么样的模型是“好”的,不仅取决于算 法和数据,还取决于任务需求。
数据挖掘模型选择
• 回归任务
性能度量
• 分类任务
– 错误率与精度 – 查准率、查全率与F1 – ……
数据挖掘模型选择
性能度量-错误率与精度
• 错误率
å E(
f ;D)
=
1 m
m i=1
果,决定数据属于哪一类
数据挖掘模型选择
投票机制
• 简单投票机制
– 一票否决(一致表决) – 少数服从多数
• 有效多数(加权)
– 阈值表决
• 贝叶斯投票机制
数据挖掘模型选择
• 但也可以使用SVM、Logistic回归等其他分类 器,习惯上,这些分类器组成的“总分类 器”,仍然叫做随机森林。
数据挖掘模型选择
P = TP TP + Fp
R = TP TP + FN
数据挖掘模型选择
True Positive Rate, TPR, (Sensitivity) True Negative Rate, TNR, (Specificity) Positive Predictive Value, PPV False Positive Rate, FPR False Negative Rate, FNR False Discovery Rate, FDR 数据挖掘模型选择
模型评估与选择
数据挖掘模型选择
泛化误差 vs 经验误差
• 泛化误差:在“未来”样本上的误差
• 经验误差:在训练集上的误差,亦称“训 练误差”
新样本 数据
训练数据
模型
新样本 属于什 么类别?
数据挖掘模型选择
过拟合 vs 欠拟合
数据挖掘模型选择
模型选择
• 三个关键问题:
– 如何获得测试结果 – 如何评估性能优劣 – 如何判断实质差别
K-折交叉验证法
当K=m时,则得到“留一法”(leave-one-out, LOO)
数据挖掘模型选择
自助法
• 基于“自助采样”(bootstrap sampling)
– Pull up by your own bootstraps – 有放回采样、可重复采样 – 训练集与原样本集同规模 – 数据分布有所改变 – 约有36.8%的样本不出现
I(
f
(xi )
¹
yi )
• 精度
å acc(
f ;D)
=
1 m
m i=1
I(
f
(xi
)
=
yi )
=1-
E(
f ;D)
数据挖掘模型选择
性能度量-查准率与查全率
• 查准率:precision,准确率,P
– 预测结果中是正例的比率
• 查全率:recall,sensitivity, 召回率, R
– 所有的正例中被正确预测出的比列
• 定义:通过构建并结合多个学习器来完成学习任 务,又称为:多分类学习器系统、基于委员会的
学习等。
• 两大类
– 个体学习器间存在强依赖关系,必须串行生产 的序列化方法: Boosting
– 个体学习器间不存在强依赖关系,可同时生成 的并行化方法:Bagging and Random Forest
数据挖掘模型选择
集成学习-随机森林
• Bagging 策略
– bootstrap aggregation – 从样本集中重采样(有重复的)选出n个样本 – 在所有属性上,对这n个样本建立分类器(ID3、
C4.5、CART、SVM、Logistic回归等) – 重复以上两步m次,即获得了m个分类器 – 将数据放在这m个分类器上,最后根据这m个
包外估计:out-of-bag estimation 数据挖掘模型选择
模型选择
• 三个关键问题:
– 如何获得测试结果 – 如何评估性能优劣 – 如何判断实质差别
评估方法 性能度量 比较检验
数据挖掘模型选择
性Βιβλιοθήκη Baidu度量
• 性能度量(performance measure)是衡量 模型泛化能力的评价标准,反映了任务需 求
PR图:
学习器A优于学习器C 学习器B优于学习器C 学习器A??学习器B
平衡点 (BEP)
(Break-Even Point, ) 学习器A优于学习器B 学习器A优于学习器C 学习器B优于学习器C
数据挖掘模型选择
性能度量-F1度量
数据挖掘模型选择
性能度量-ROC与AUC
数据挖掘模型选择
集成学习
评估方法 性能度量 比较检验
数据挖掘模型选择
评估方法
• 关键:怎么获得“测试集”?
– 原则:测试集与训练集“互斥”
• 常见方法:
– 留出法(hold-out) – 交叉验证法(cross validation) – 自助法(bootstrap)
数据挖掘模型选择
留出法
• 保持数据分布一致性(例如:分层采样) • 多次重复划分(例如:100次随机划分) • 测试集不能太大、不能太小(例如:1/5~1/3)
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
数据挖掘模型选择
分类器的投票结果,决定数据属于哪一类
数据挖掘模型选择
数据挖掘模型选择
• 随机森林在bagging基础上做了修改。
– 从样本集中用Bootstrap采样选出n个样本; – 从所有属性中随机选择k个属性,选择最佳分
割属性作为节点建立CART决策树; – 重复以上两步m次,即建立了m棵CART决策树 – 这m个CART形成随机森林,通过投票表决结
• 使用不同的性能度量往往会导致不同的评 判结果
• 什么样的模型是“好”的,不仅取决于算 法和数据,还取决于任务需求。
数据挖掘模型选择
• 回归任务
性能度量
• 分类任务
– 错误率与精度 – 查准率、查全率与F1 – ……
数据挖掘模型选择
性能度量-错误率与精度
• 错误率
å E(
f ;D)
=
1 m
m i=1
果,决定数据属于哪一类
数据挖掘模型选择
投票机制
• 简单投票机制
– 一票否决(一致表决) – 少数服从多数
• 有效多数(加权)
– 阈值表决
• 贝叶斯投票机制
数据挖掘模型选择
• 但也可以使用SVM、Logistic回归等其他分类 器,习惯上,这些分类器组成的“总分类 器”,仍然叫做随机森林。
数据挖掘模型选择
P = TP TP + Fp
R = TP TP + FN
数据挖掘模型选择
True Positive Rate, TPR, (Sensitivity) True Negative Rate, TNR, (Specificity) Positive Predictive Value, PPV False Positive Rate, FPR False Negative Rate, FNR False Discovery Rate, FDR 数据挖掘模型选择
模型评估与选择
数据挖掘模型选择
泛化误差 vs 经验误差
• 泛化误差:在“未来”样本上的误差
• 经验误差:在训练集上的误差,亦称“训 练误差”
新样本 数据
训练数据
模型
新样本 属于什 么类别?
数据挖掘模型选择
过拟合 vs 欠拟合
数据挖掘模型选择
模型选择
• 三个关键问题:
– 如何获得测试结果 – 如何评估性能优劣 – 如何判断实质差别