数据挖掘.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Pij
Xi Xj (v1 n1 v2 n2)
Xi是类i的均值, Xj是类j的均值 vi是属性A类i的方差,vj是A类j的方差, ni是ci中的实例数,nj是cj中的实例数
比较。如果 PIJ的任何一个值 2,则该属性是重要的
www.renwodown.com
Company Logo
四、指导者模型的评估
Company Logo
一般分类模型的构成
实例 属性
参数
数据
训练数据
模型建 立者
有指导 模型
评估
检验数据
图1 有指导学习的组成部分
www.renwodown.com
Company Logo
模型评估的对象
训练数据 B
属性
A
评估对象
C 有指导模型 D 模型建立者
检验集合
F
E 参数
二、评估工具
评估的工具 本章主要是利用统计研究方法来进行评估,因为
属性类型
描述
例子
操作
分类的 (定性 标称 的)
序数
标称属性值仅仅只是 不同的名字(=)
提供足够的信息确定 对象的序。(<)
邮政编码,性别 矿石硬度,成绩
众数 x 2 检验
中值,游程检验, 符号检验,秩相关
数值的 (定量 区间 的)
比率
值之间的差异是有意 义的,即存在测量单 位(+)
差和比率都是有意义 的
分类模型性能评估指标 单模型分类器错误率置信区间的求解 比较两个模型的分类正确性 评估分类器性能的其他方法 评估具有数值输出的有指导模型 无指导聚类用于有指导的评估
www.renwodown.com
Company Logo
分类模型性能评估指标
分类模型的性能评估常用准确率或错误率来度量
错误率:如
预测的类
类=1
类=0
类=1
f 11
f 10
实际的类
类=0
f 01
f 00
错误率
f f 10
01
f f f f 10
11
00
01
www.renwodown.com
Company Logo
单模型分类器错误率置信区间的求解
给定大小为n的检验集样本S和错误率E 计算样本方差; 计算标准误差(SE),用Variance(E)除以n,再求商
www.renwodown.com
Company Logo
关于正态分布两个重要声明
声明一:对于给定的总体,从大小相同的随机的独立样本集 中取得的均值的分布是正态分布。(例子:美国家庭平均信 用卡债务问题)
声明二:95%的情况下,任何样本均值与总体均值的偏差 在正负两个标准误差之内。(家庭信用卡的例子说明)
www.renwodown.com
Company Logo
假设检验的经典模型
虚假设:假定两个子样或它们的特征之间不存在差异
例子:在用药品X和用安慰剂的两组病人之间,他们 每天过敏反应总次数的平均增加和减少值不存在显著 差别。
www.renwodown.com
Company Logo
度量参数平均值是否存在显著差别的经典模型
L
125 NO
2 No
M
100 NO
3 No
S
70
NO
4 Yes
M
120 YES
5 No
L
95
NO
6 No
M
60
NO
7 yes
S
220 NO
检验集
tid 属性1 属性2 属性3 类
9 No S 10 Yes M 11 yes L
55 ? 80 ? 110 ?
学习算法
归纳
学习模型
运用模型 推论
模型
www.renwodown.com
统计研究方法具有能够将置信度与数据挖掘实验的结 果联系起来的优势。
www.renwodown.com
Company Logo
统计学相关知识点回顾
单值汇总统计 正态分布 假设检验
www.renwodown.com
Company Logo
单值汇总统计
数值数据的一个总体可以用均值、样本偏差和数据中 出现值的频率和概率分布来唯一确定
LOGO
第七章 形式评估技术
本章结构
1.评估对象 2.评估工具 3.属性评估 4.有指导学习评估 5.无指导评估技术
一 、评估对象
两
有指导学习
个
重
要
概
念
无指导学习
www.renwodown.com
Company Logo
建立分类模型的一般方法
训练集 Tid 属性 1 属性2 属性3 类
1 Yes
重要 性值
P
独立样本1 的均值
独立样本2 的均值
X1 X2 (v1 n1 v2 n2)
要95%的确信两个样本之 间的差异是显著的,等
式中 P 2
均值的 方差值
样本
大小 运用条件:每个均
值是用一个独立数
据集计算出来的
www.renwodown.com
Company Logo
三、属性评估
属性的类型及相应的评估方法
准确率 = 正确预测数
预测总数
错误率 = 错误预测数
预测总数
常通过混淆矩 阵求解正确率 或错误率
www.renwodown.com
Company Logo
混淆矩阵
混淆矩阵用来作为分类规则特征表示,它是分类器识
别不同样本情况的有用工具,它包括正确的和错误的
分类。通过混淆矩阵,可以求出分类模型的正确率和
日历年龄日期,摄氏 温度
质量,长度,
均值,标准差,t 和F检验
几何平均,调和平 均,
www.renwodown.com
Company Logo
数值属性重要性的假设检验
前提假设
数值属性A,其重要性有待确定
属性A的n个类C1,C2,…,Cn,以及相应的均值
X1
… X 2
Xn
计算。为每一类Ci和Cj,用如下公式计算
例题:假定分类器在运用于有100个检验实例的随机 样本时有10%的错误率,计算错误率的置信区间。
均值(u):样本均值= X 方差( 2 ):样本方差= V
注意:即使两个总体
的均值和方差都非常的 相似,它们各个数据项 之间仍然可能有显著的
差异
www.renwodown.com
Company Logo
正态分布
一些数据挖掘模型假定数值属性为正态分布, 可以运用正态分布的特性来帮助评估数据挖掘 模型的性能。
的ቤተ መጻሕፍቲ ባይዱ方根
Variance(E) E(1 E)
www.renwodown.com
Company Logo
样本 方差
v n 总体方差的估计=
样本实例个数
标准误差(SE)是所估计的总体方差的平方根 SE= v n
www.renwodown.com
Company Logo
求95%置信区间的上限:E+2(SE) 求95%置信区间下限: E-2(SE)