数据挖掘--分类课件ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
训练集应用于建立分类模型 测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation):将初 始采样分割成K个子样本(S1,S2,...,Sk),取K-1个 做训练集,另外一个做测试集。交叉验证重复K 次,每个子样本都作为测试集一次,平均K次的 结果,最终得到一个单一估测。
(9) END
(10)END
(11)c=class to which the most u ∈N.
03:03
17
姓名 Kristina女 Jim Maggie Martha Stephanie Bob Kathy Dave Worth Steven Debbie Todd Kim Amy Wynette
03:03
9
分类模型的评估
对于非平衡(unblanced)的数据集,以上指标并不能很好的 评估预测结果。
非平衡的数据集是指阳性数据在整个数据集中的比例很 小。比如,数据集包含10只爬行动物,990只爬行动物, 此时,是否预测正确爬行动物对准确率影响不大。
更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。
<=30 高 否 一般 否
30— 高 否 一般 是 40 >40 中 否 一般 是
>40 低 是 一般 是
>40 低 是 良好 否
30— 低 是 良好 是 40
<=30 中 否 一般 否
<=30 低 是 一般 是
决策树表示与例子
年龄?
<=30 30—40
>40
学生? 是 信用?
否
是
良好
一般
否是
否是
03:03
行动物,阴性代表非爬行动物,请大家阐述 TP=10, TN=8,FN=3,FP=2是什么意义
03:03
8
分类模型的评估
灵敏度(Sensitivity): TP/(TP+FN)
也称为查全率(Recall)
数据集共有13只爬行动物,其中10只被正确预测为爬行动物, 灵敏度为10/13
特异度(Specificity): TN/(TN+FP)
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
1
分类的流程
动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛
狗
中
0
4
否
是
猪
大
0
4
否
是
牛
大
0
麻雀
小
2
4
否
是
2
是
是
天鹅
中
2
2
是
是
大雁
中
2
2
是
是
步骤三:建立分类模型或分类器(分类)。
分类器通常可以看作一个函数,它把特征映射到类的空间 上
03:03
5
如何避免过度训练
分类也称为有监督学习(supervised learning), 与之相对于的是无监督学习(unsupervised learning),比如聚类。
分类与聚类的最大区别在于,分类数据中的一 部分的类别是已知的,而聚类数据的类别未知。
性别 身高(米) 类别
1.6 矮
男 2高
女 1.83 高
女 1.88
高
女 1.7
矮
男 1.85 中等
女 1.6 矮
男 1.7 矮
男 2.2 高
男 2.1 高
女 1.8 高
男 1.82 中等
女 1.7 中等
女 1.75 中等
女 1.73 中等
03:03
KNN的例子
只使用身高做特征, K=3,对于样本 <kate,1.8,女>应 属于哪个类别?
sim(ti,Cj)>=sim(ti,Cl) ,Cl∈C,Cl≠Cj,
其中sim(ti,Cj)被称为相似性。
在实际的计算中往往用距离来表征,距离越近, 相似性越大,距离越远,相似性越小。
距离的计算方法有多种,最常用的是通过计算每 个类的中心来完成。
03:03
13
基于距离的分类算法的一般性描述
20
决策树表示与例子
决策树(Decision Tree)的每个内部结点表示一 个属性(特征),每个分枝代表一个特征的一个 (类)取值;
每个树叶结点代表类或类分布。 决策树分类方法采用自顶向下的递归方式,在决
策树的内部结点进行属性的比较,从而判断从该 结点向下的分枝,在决策树的叶结点得到结论。 从决策树的根到叶结点的一条路径就对应着一条 规则,整棵决策树就对应着一组规则。 决策树分类模型的建立通常分为两个步骤:
建立分类模型需要学习一部分已知数据,如果 训练时间过长,或者预测模型参数太多而样本 较少,将导致过度训练(overfitting)。
03:03
6
如何避免过度训练
避免过度训练最重要一点是,模型的参数量应 远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
03:03
16
K-近邻分类算法
K-近邻分类算法(K Nearest Neighbors,简称KNN)通过 计算每个训练数据到待分类元组的距离,取和待分类元组 距离最近的K个训练数据,K个数据中哪个类别的训练数据 占多数,则待分类元组就属于哪个类别。
算法 4-2 K-近邻分类算法
输入: 训练数据T;近邻数目K;待分类的元组t。
剪枝是一种克服噪声的基本技术,同时它也能使 树得到简化而变得更容易理解。有两种基本的剪 枝策略。
03:03
23
决策树修剪算法
预先剪枝(Pre-Pruning):在生成树的同时决定 是继续对不纯的训练子集进行划分还是停机。
后剪枝(Post-Pruning):是一种拟合+化简 (fitting-and-simplifying)的两阶段方法。首先生 成与训练数据完全拟合的一棵决策树,然后从树 的叶子开始剪枝,逐步向根的方向剪。剪枝时要 用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集 上的准确度或其他测度不降低(不变得更坏), 则剪去该叶子;否则停机。理论上讲,后剪枝好 于预先剪枝,但计算复杂度大。
03:03
7
分类模型的评估
真阳性(True Positive): 实际为阳性 预测为阳性 真阴性(True Negative):实际为阴性 预测为阴性 假阳性(False Positive): 实际为阴性 预测为阳性 假阴性(False Negative):实际为阳性 预测为阴性
预测是否正确 预测结果 比如预测未知动物是鸟类还是爬行动物,阳性代表爬
决策树生成 决策树修剪
03:03
21
决策树生成算法描述
算法 4-3 Generate_decision_tree(samples, attribute_list) /*决策 树生成算法*/
输入:训练样本samples,由离散值属性表示;输出:一棵决策树。 (1) 创建结点N; (2) IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记; (3) IF attribute_list为空 THEN 返回N作为叶结点,标记为samples中最 普通的类;//多数表决 (4) 选择attribute_list中具有最高信息增益的属性test_attribute; (5) 标记结点N为test_attribute; (6) FOR test_attribute的每个取值ai 由结点N长出一个条件为 test_attribute=ai的分枝; (7)设si是samples 中test_attribute =ai的样本的集合;//一个划分 (8)IF si 为空 THEN 回退到test_attribute的其它取值; (9)ELSE 加上一个由Generate_decision_tree(si, attribute_listtest_attribute)返回的结点;
输出: 输出类别c。
(1)N=;
(2)FOR each d ∈T DO BEGIN
(3) IF |N|≤K THEN
(4) N=N ∪{d};
(5) ELSE
(6) IF u ∈N such that sim(t,u)〈sim(t,d) THEN BEGIN
(7)
N=N - {u};
(8)
N=N ∪{d};
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
12
基于距离的分类算法的思路
定义4-2 给定一个数据库 D={t1,t2,…,tn}和一 组类C={C1,…,Cm}。假定每个元组包括一些数 值型的属性值:ti={ti1,ti2,…,tik},每个类也包 含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分 类问题是要分配每个ti到满足如下条件的类Cj:
马修斯相关性系数定义为
03:03
10
分类模型的评估
ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实 现,其中TPR=TP/(TP+FN), FPR=FP/(FP+TN)。
大部分分类器都输出一个实数值(可以看作概率),通过变 换阈值可以得到多组TPR与FPR的值。
03:03
11
03:03
22
决策树修剪算法
基本的决策树构造算法没有考虑噪声,因此生成 的决策树完全与训练集拟合。在有噪声情况下, 将导致过分拟合(Overfitting),即对训练数据的 完全拟合反而使对现实数据的分类预测性能下降。
比如每个样本都是一个叶子节点。
现实世界的数据一般不可能是完美的,可能缺值 (Missing Values);数据不完整;含有噪声甚至 是错误的。
动物A 大
0
2
是
无
动物B 中
2
2
否
是
类别 爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类 ? ?
根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息, 我们能否对新发现的物种,比如动物Байду номын сангаас,动物B进行分类?
03:03
2
分类的流程
动物种类 体型
狗
中
猪
大
牛
大
麻雀 小
天鹅 中
大雁 中
翅膀数量
0 0 0 2 2 2
脚的只数 是否产蛋 是否有毛
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类
步骤一:将样本转化为等维的数据特征(特征提取)。
所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性
03:03
3
分类的流程
动物种类 体型
狗
中
猪
大
牛
大
麻雀 小
天鹅 中
大雁 中
数据集有10只非爬行动物,其中8只被预测为非爬行动物,特 异度为8/10
精度(Precision):
TP/(TP+FP)
分类器预测了12只动物为爬行动物,其中10只确实是爬行动 物,精度为10/12
准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP)
数据集包含23只动物,其中18只预测为正确的分类,准确率 为18/23
翅膀数量
0 0 0 2 2 2
脚的只数 是否产蛋 是否有毛
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类
步骤二:选择与类别相关的特征(特征选择)。
比如,绿色代表与类别非常相关,黑色代表部分相关,灰 色代表完全无关
03:03
4
分类的流程
f (xi1, xi2, xi3,......,xin) yi
算法 4-1 基于距离的分类算法
输入:每个类的中心C1,…,Cm;待分类的元组t。 输出:输出类别c。
(1)dist=∞;//距离初始化
(2)FOR i:=1 to m DO
(3) (4)
IF dis(ci,t)<dist THEN BEGIN c← i;
(5) (6)
dist←dist(ci,t);
仅使用同性别样本 做训练,K=3,对 于样本<kate,1.8, 女>应属于哪个类 别?
18
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
19
年龄 收 是否 信用 是否买 入 学生 状况 电脑
END.
算法 4-1通过对每个样本和各个类的中心来比较, 从而可以找出他的最近的类中心,得到确定的类 别标记。
03:03
14
基于距离的分类方法的直观解释
(a)类定义 (b)待分类样例 (c)分类结果
03:03
15
距离分类例题
C1=(3,3,4,2), C2=(8,5,-1,-7), C3=(-5,-7,6,10); 请用基于距离的算法给以下样本分类: (5,5,0,0) (5,5,-5,-5) (-5,-5,5,5)
K折叠交叉验证(K-fold cross validation):将初 始采样分割成K个子样本(S1,S2,...,Sk),取K-1个 做训练集,另外一个做测试集。交叉验证重复K 次,每个子样本都作为测试集一次,平均K次的 结果,最终得到一个单一估测。
(9) END
(10)END
(11)c=class to which the most u ∈N.
03:03
17
姓名 Kristina女 Jim Maggie Martha Stephanie Bob Kathy Dave Worth Steven Debbie Todd Kim Amy Wynette
03:03
9
分类模型的评估
对于非平衡(unblanced)的数据集,以上指标并不能很好的 评估预测结果。
非平衡的数据集是指阳性数据在整个数据集中的比例很 小。比如,数据集包含10只爬行动物,990只爬行动物, 此时,是否预测正确爬行动物对准确率影响不大。
更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。
<=30 高 否 一般 否
30— 高 否 一般 是 40 >40 中 否 一般 是
>40 低 是 一般 是
>40 低 是 良好 否
30— 低 是 良好 是 40
<=30 中 否 一般 否
<=30 低 是 一般 是
决策树表示与例子
年龄?
<=30 30—40
>40
学生? 是 信用?
否
是
良好
一般
否是
否是
03:03
行动物,阴性代表非爬行动物,请大家阐述 TP=10, TN=8,FN=3,FP=2是什么意义
03:03
8
分类模型的评估
灵敏度(Sensitivity): TP/(TP+FN)
也称为查全率(Recall)
数据集共有13只爬行动物,其中10只被正确预测为爬行动物, 灵敏度为10/13
特异度(Specificity): TN/(TN+FP)
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
1
分类的流程
动物种类 体型 翅膀数量 脚的只数 是否产蛋 是否有毛
狗
中
0
4
否
是
猪
大
0
4
否
是
牛
大
0
麻雀
小
2
4
否
是
2
是
是
天鹅
中
2
2
是
是
大雁
中
2
2
是
是
步骤三:建立分类模型或分类器(分类)。
分类器通常可以看作一个函数,它把特征映射到类的空间 上
03:03
5
如何避免过度训练
分类也称为有监督学习(supervised learning), 与之相对于的是无监督学习(unsupervised learning),比如聚类。
分类与聚类的最大区别在于,分类数据中的一 部分的类别是已知的,而聚类数据的类别未知。
性别 身高(米) 类别
1.6 矮
男 2高
女 1.83 高
女 1.88
高
女 1.7
矮
男 1.85 中等
女 1.6 矮
男 1.7 矮
男 2.2 高
男 2.1 高
女 1.8 高
男 1.82 中等
女 1.7 中等
女 1.75 中等
女 1.73 中等
03:03
KNN的例子
只使用身高做特征, K=3,对于样本 <kate,1.8,女>应 属于哪个类别?
sim(ti,Cj)>=sim(ti,Cl) ,Cl∈C,Cl≠Cj,
其中sim(ti,Cj)被称为相似性。
在实际的计算中往往用距离来表征,距离越近, 相似性越大,距离越远,相似性越小。
距离的计算方法有多种,最常用的是通过计算每 个类的中心来完成。
03:03
13
基于距离的分类算法的一般性描述
20
决策树表示与例子
决策树(Decision Tree)的每个内部结点表示一 个属性(特征),每个分枝代表一个特征的一个 (类)取值;
每个树叶结点代表类或类分布。 决策树分类方法采用自顶向下的递归方式,在决
策树的内部结点进行属性的比较,从而判断从该 结点向下的分枝,在决策树的叶结点得到结论。 从决策树的根到叶结点的一条路径就对应着一条 规则,整棵决策树就对应着一组规则。 决策树分类模型的建立通常分为两个步骤:
建立分类模型需要学习一部分已知数据,如果 训练时间过长,或者预测模型参数太多而样本 较少,将导致过度训练(overfitting)。
03:03
6
如何避免过度训练
避免过度训练最重要一点是,模型的参数量应 远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
03:03
16
K-近邻分类算法
K-近邻分类算法(K Nearest Neighbors,简称KNN)通过 计算每个训练数据到待分类元组的距离,取和待分类元组 距离最近的K个训练数据,K个数据中哪个类别的训练数据 占多数,则待分类元组就属于哪个类别。
算法 4-2 K-近邻分类算法
输入: 训练数据T;近邻数目K;待分类的元组t。
剪枝是一种克服噪声的基本技术,同时它也能使 树得到简化而变得更容易理解。有两种基本的剪 枝策略。
03:03
23
决策树修剪算法
预先剪枝(Pre-Pruning):在生成树的同时决定 是继续对不纯的训练子集进行划分还是停机。
后剪枝(Post-Pruning):是一种拟合+化简 (fitting-and-simplifying)的两阶段方法。首先生 成与训练数据完全拟合的一棵决策树,然后从树 的叶子开始剪枝,逐步向根的方向剪。剪枝时要 用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集 上的准确度或其他测度不降低(不变得更坏), 则剪去该叶子;否则停机。理论上讲,后剪枝好 于预先剪枝,但计算复杂度大。
03:03
7
分类模型的评估
真阳性(True Positive): 实际为阳性 预测为阳性 真阴性(True Negative):实际为阴性 预测为阴性 假阳性(False Positive): 实际为阴性 预测为阳性 假阴性(False Negative):实际为阳性 预测为阴性
预测是否正确 预测结果 比如预测未知动物是鸟类还是爬行动物,阳性代表爬
决策树生成 决策树修剪
03:03
21
决策树生成算法描述
算法 4-3 Generate_decision_tree(samples, attribute_list) /*决策 树生成算法*/
输入:训练样本samples,由离散值属性表示;输出:一棵决策树。 (1) 创建结点N; (2) IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记; (3) IF attribute_list为空 THEN 返回N作为叶结点,标记为samples中最 普通的类;//多数表决 (4) 选择attribute_list中具有最高信息增益的属性test_attribute; (5) 标记结点N为test_attribute; (6) FOR test_attribute的每个取值ai 由结点N长出一个条件为 test_attribute=ai的分枝; (7)设si是samples 中test_attribute =ai的样本的集合;//一个划分 (8)IF si 为空 THEN 回退到test_attribute的其它取值; (9)ELSE 加上一个由Generate_decision_tree(si, attribute_listtest_attribute)返回的结点;
输出: 输出类别c。
(1)N=;
(2)FOR each d ∈T DO BEGIN
(3) IF |N|≤K THEN
(4) N=N ∪{d};
(5) ELSE
(6) IF u ∈N such that sim(t,u)〈sim(t,d) THEN BEGIN
(7)
N=N - {u};
(8)
N=N ∪{d};
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
12
基于距离的分类算法的思路
定义4-2 给定一个数据库 D={t1,t2,…,tn}和一 组类C={C1,…,Cm}。假定每个元组包括一些数 值型的属性值:ti={ti1,ti2,…,tik},每个类也包 含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分 类问题是要分配每个ti到满足如下条件的类Cj:
马修斯相关性系数定义为
03:03
10
分类模型的评估
ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实 现,其中TPR=TP/(TP+FN), FPR=FP/(FP+TN)。
大部分分类器都输出一个实数值(可以看作概率),通过变 换阈值可以得到多组TPR与FPR的值。
03:03
11
03:03
22
决策树修剪算法
基本的决策树构造算法没有考虑噪声,因此生成 的决策树完全与训练集拟合。在有噪声情况下, 将导致过分拟合(Overfitting),即对训练数据的 完全拟合反而使对现实数据的分类预测性能下降。
比如每个样本都是一个叶子节点。
现实世界的数据一般不可能是完美的,可能缺值 (Missing Values);数据不完整;含有噪声甚至 是错误的。
动物A 大
0
2
是
无
动物B 中
2
2
否
是
类别 爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类 ? ?
根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息, 我们能否对新发现的物种,比如动物Байду номын сангаас,动物B进行分类?
03:03
2
分类的流程
动物种类 体型
狗
中
猪
大
牛
大
麻雀 小
天鹅 中
大雁 中
翅膀数量
0 0 0 2 2 2
脚的只数 是否产蛋 是否有毛
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类
步骤一:将样本转化为等维的数据特征(特征提取)。
所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性
03:03
3
分类的流程
动物种类 体型
狗
中
猪
大
牛
大
麻雀 小
天鹅 中
大雁 中
数据集有10只非爬行动物,其中8只被预测为非爬行动物,特 异度为8/10
精度(Precision):
TP/(TP+FP)
分类器预测了12只动物为爬行动物,其中10只确实是爬行动 物,精度为10/12
准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP)
数据集包含23只动物,其中18只预测为正确的分类,准确率 为18/23
翅膀数量
0 0 0 2 2 2
脚的只数 是否产蛋 是否有毛
4
否
是
4
否
是
4
否
是
2
是
是
2
是
是
2
是
是
类别
爬行动物 爬行动物 爬行动物
鸟类 鸟类 鸟类
步骤二:选择与类别相关的特征(特征选择)。
比如,绿色代表与类别非常相关,黑色代表部分相关,灰 色代表完全无关
03:03
4
分类的流程
f (xi1, xi2, xi3,......,xin) yi
算法 4-1 基于距离的分类算法
输入:每个类的中心C1,…,Cm;待分类的元组t。 输出:输出类别c。
(1)dist=∞;//距离初始化
(2)FOR i:=1 to m DO
(3) (4)
IF dis(ci,t)<dist THEN BEGIN c← i;
(5) (6)
dist←dist(ci,t);
仅使用同性别样本 做训练,K=3,对 于样本<kate,1.8, 女>应属于哪个类 别?
18
第三章 分类方法
分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题
内容提要
03:03
19
年龄 收 是否 信用 是否买 入 学生 状况 电脑
END.
算法 4-1通过对每个样本和各个类的中心来比较, 从而可以找出他的最近的类中心,得到确定的类 别标记。
03:03
14
基于距离的分类方法的直观解释
(a)类定义 (b)待分类样例 (c)分类结果
03:03
15
距离分类例题
C1=(3,3,4,2), C2=(8,5,-1,-7), C3=(-5,-7,6,10); 请用基于距离的算法给以下样本分类: (5,5,0,0) (5,5,-5,-5) (-5,-5,5,5)