数据挖掘第8章-分类：基本概念PPT课件

合集下载

数据挖掘概念与技术ppt课件

用户 GUI API 数据立方体 API
挖掘结果
第4层用户界面
OLAP 引擎
第3层 OLAP/OLAM
21.05.2020
.
17
KDD过程的步骤(续)
选择挖掘算法数据挖掘: 搜索有趣的模式模式评估和知识表示
可视化, 变换, 删除冗余模式, 等.
发现知识的使用
21.05.2020
.
18
数据挖掘和商务智能
提高支持商务决策的潜能
制定决策
数据表示可视化技术
数据挖掘信息发现
21.05.2020
我们正被数据淹没,但却缺乏知识解决办法: 数据仓库与数据挖掘
数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则, 规律性, 模
式, 限制等)
21.05.2020
.
6
数据处理技术的演进
1960s: 数据收集, 数据库创建, IMS 和网状 DBMS
1970s: 关系数据库模型, 关系 DBMS 实现
顾客分类(Customer profiling)
数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求
对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客
提供汇总信息
各种多维汇总报告统计的汇总信息 (数据的中心趋势和方差)
21.05.2020
.
11
法人分析和风险管理
搜索有趣的模式可视化变换删除冗余模式发现知识的使用2105202019提高支持商务决策的潜能最终用户商务分析人员数据分析人员dba制定决策数据表示可视化技术数据挖掘信息发现数据探查olapmda统计分析查询和报告数据仓库数据集市数据源文字记录文件信息提供者数据库系统oltp系统2105202020数据仓库数据清理数据集成过滤数据库数据库或数据仓库数据挖掘引擎模式评估图形用户界面知识库21052020www21052020概念描述

数据挖掘原理、算法及应用章 (8)

第8章复杂类型数据挖掘 1）以Arc/info基于矢量数据模型的系统为例，为了将空间
数据存入计算机，首先，从逻辑上将空间数据抽象为不同的专题或层，如土地利用、地形、道路、居民区、土壤单元、森林分布等，一个专题层包含区域内地理要素的位置和属性数据。其次，将一个专题层的地理要素或实体分解为点、线、面目标，每个目标的数据由空间数据、属性数据和拓扑数据组成。
第8章复杂类型数据挖掘 2. 空间数据具体描述地理实体的空间特征、属性特征。空
间特征是指地理实体的空间位置及其相互关系；属性特征表示地理实体的名称、类型和数量等。空间对象表示方法目前采用主题图方法, 即将空间对象抽象为点、线、面三类，根据这些几何对象的不同属性，以层（Layer）为概念组织、存储、修改和显示它们，数据表达分为矢量数据模型和栅格数据模型两种。
第8章复杂类型数据挖掘图Fra bibliotek-5 综合图层
第8章复杂类型数据挖掘
图8-4 栅格数据模型
第8章复杂类型数据挖掘
3. 虽然空间数据查询和空间挖掘是有区别的，但是像其他数据挖掘技术一样，查询是挖掘的基础和前提，因此了解空间查询及其操作有助于掌握空间挖掘技术。
由于空间数据的特殊性，空间操作相对于非空间数据要复杂。传统的访问非空间数据的选择查询使用的是标准的比较操作符： “>”、 “<”、 “≤ ”、 “≥ ”、 “≠ ”。而空间选择是一种在空间数据上的选择查询，要用到空间操作符.包括接近、东、西、南、北、包含、重叠或相交等。
不同的实体之间进行空间性操作的时候，经常需要在属性之间进行一些转换。如果非空间属性存储在关系型数据库中，那么一种可行的存储策略是利用非空间元组的属性存放指向相应空间数据结构的指针。这种关系中的每个元组代表的是一个空间实体。

数据挖掘入门ppt课件

15.05.2021
数据库
数据仓库
精选编辑ppt
知识库
14
三、数据挖掘方法
3.1 可以分别按挖掘任务、挖掘对象和挖掘方法来分类。
1. 按挖掘任务分类：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时序模式发现，依赖关系或依赖模型发现，异常和趋势发现等。
2. 按挖掘对象分类：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，演绎数据库和Web数据库等。
8. 模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。
9. 知识评价：将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查，以确信本次发现的知识不会与以前发现的知识相抵触。
15.05.2021
2.1 KDD定义人们给KDD下过很多定义，内涵也各不
相同，目前公认的定义是由Fayyad等人提出的。
所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。
15.05.2021
精选编辑ppt
5
2.2 KDD过程
KDD是一个人机交互处理过程。该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看，KDD过程主要经由三个部分组成，即数据整理、数据挖掘和结果的解释评估。
15.05.2021
精选编辑ppt
6
知识发现（KDD）的过程
解释/评估
数据挖掘
预处理及变换
变换后的数据
数据清理筛选目标数据

《数据挖掘》PPT课件

➢ 数据挖掘应用系统开发 ➢ 数据挖掘技术的新应用 ➢ 数据挖掘软件发展
2020/12/9
数据库研究所
9
高级数据挖掘
课程的教学目的
➢ 让学生掌握数据挖掘的基本概念、算法和高级技术； ➢ 将这些概念、算法和技术应用于实际问题。
复旦大学计算机科学技术学院基本情况
➢ 主要研究方向
▪ 媒体计算 ▪ 数据库与数据科学 ▪ 网络与信息安全 ▪ 智能信息处理 ▪ 人机接口和服务计算 ▪ 理论计算机科学 ▪ 软件工程与系统软件
2020/12/9
数据库研究所
6
复旦大学数据挖掘课程的设置
总体目标
➢ 掌握大规模数据挖掘与分析的基本流程 ➢ 掌握数据挖掘的基本算法 ➢ 掌握对实际数据集进行挖掘的系统能力
数据仓库与数据挖掘
数据库系统
2020/12/9
数据库研究所
8
数据仓库与数据挖掘
课程的教学目的
➢ 掌握数据仓库数据挖掘原理、技术和方法，掌握建立数据挖掘应用系统的方法，了解相关前沿的研究。
教学内容
➢ 数据挖掘、数据仓库的基本概念
▪ 数据仓库设计和应用 ▪ 数据挖掘的基本技术
• 关联分析、分类分析、聚类分析、异常分析和演化分析等；联机分析处理OLAP技术；
➢ involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.
➢ The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.

数据挖掘ppt课件(2024)

医疗数据类型及特点
电子病历、医学影像、基因测序等。
数据预处理与特征提取
针对不同类型的医疗数据进行预处理和特征提取，如文本处理、图像识别、基因表达谱分析等。
2024/1/29
模型评估与应用
通过准确率、灵敏度、特异度等指标评估模型性能，将模型应用于实际医疗场景中，提高医生诊断效率和准确性。
疾病预测与辅助诊断模型构建
贝叶斯分类器应用案例
03
如垃圾邮件识别、新闻分类、情感分析等。
17
神经网络在分类预测中应用
1 2
神经网络基本概念
模拟人脑神经元连接方式的计算模型，通过训练学习输入与输出之间的映射关系。
神经网络在分类预测中的应用
通过构建多层感知机、卷积神经网络等模型，对输入数据进行自动特征提取和分类预测。
3
神经网络应用案例
5
数据挖掘与机器学习关系
机器学习是数据挖掘的重要工具之一。
2024/1/29
数据挖掘包括数据预处理、特征提取、模型构建等步骤，其中模型构建可以使用机器学习算法。
机器学习算法如决策树、神经网络、支持向量机等在数据挖掘中有广泛应用。
6
2024/1/29
02
数据预处理技术
7
数据清洗与去重
推荐模型构建
利用机器学习、深度学习等技术构建推荐模型，如逻辑回归、神经网络等。
模型评估与优化
通过准确率、召回率、F1值等指标评估模型性能，采用交叉验证、网格搜索等方法优化模
型参数。
32
金融欺诈检测模型构建与优化
金融欺诈类型及特点
信用卡欺诈、贷款欺诈、洗钱等。
2024/1/29
数据来源与处理

数据挖掘课件-分类分析Classification

predicting
Unknown Objects （Without Class Labels）
2
Example: Learning (Training)
3
Example: Testing & Predicting
4
评价指标
预测准确度计算效率: 建立分类器及预测对噪音的敏感度可解读性
5
数据准备
A decision tree is a flowchart-like tree structure, where each internal node (non-leaf node) denotes a test on an attribute, each branch represents an outcome of the test, and each leaf node (or terminal node) holds a class label.
True False
True False
[21+, 5-]
[8+, 30-]
[18+, 33-] [11+, 2-]
16
Entropy
S is a sample of training examples p+ is the proportion of positive examples p- is the proportion of negative examples Entropy measures the impurity of S
分类分析 Classification
1
监督式学习:预测对象的类标签
Training/building
Known Objects （With Class Labels）

清华大学大数据课程数据挖掘技术PPT课件

什么是数据挖掘（Data Mining）？
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data
空缺值要经过推断而补上
第14页/共145页
如何补充缺失值
忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低
使用一个全局变量填充空缺值：比如使用unknown或-∞ 使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样的基于推断的方法
第11页/共145页
数据挖掘预处理的主要任务
数据清理
填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约
得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果
数据离散化
数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要
第12页/共145页
数据清洗
脏数据：例如设备错误，人或者机器错误，传输错误等
不完整性：属性值缺失或者只有聚集数据例如：phone=“”;
噪音：包含噪声、错误或者异常值例如：salary=-10
不一致性: 例如：age=42，birthday=03-07-2010
假值：例如：使用某一值填补缺失属性

数据挖掘导论第章_分类_其他技术ppt课件

24
规则评估(续)
考虑规则的支持度计数的评估度量规则的支持度计数对应于它所覆盖的正例数 FOIL信息增益（First Order Inductive Leaner information gain）设规则r : A→+覆盖p0个正例和n0个反例; 规则r’: A B→+覆盖p1个正例和n1个反例.扩展后规则的FOIL信息增益定义为
规则的准确率（accuracy） : 在满足规则前件的记录中，满足规则后件的记录所占的比例
规则: (Status=Single) No
Coverage = 40%, Accuracy = 50%
Tid Refund Marital Taxable Status Income Class
1 Yes 2 No 3 No 4 Yes 5 No 6 No 7 Yes 8 No 9 No 10 No
10
Single 125K No
Married 100K No
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
22
规则评估:例
例: 60个正例和100个反例规则r1：覆盖50个正例和5个反例（acc = 90.9%）规则r2：覆盖2个正例和0个反例（acc = 100%）
使用准确率, r2好使用似然比
r1 : 正类的期望频度为e+ = 5560/160 = 20.625 负类的期望频度为e = 55100/160 = 34.375
如果规则集不是互斥的一个记录可能被多个规则触发如何处理? 有序规则集基于规则的序 vs 基于类的序无序规则集 – 使用投票策略

数据挖掘PPT全套课件

记录数据
记录（数据对象）的汇集，每个记录包含固定的数据字段（属性）集
Tid Refund Marital Taxable Status Income Cheat
1 Yes 2 No 3 No 4 Yes 5 No 6 No 7 Yes 8 No 9 No 10 No
10
Single 125K No
和三维结构的DNA数据）
数据库技术、并行技术、分布式技术
数据挖掘的任务
预测 – 使用已知变量预测未知变量的值.
描述 – 导出潜在联系的模式（相关、趋势、聚类、异
常）.
数据挖掘的任务
分类 [预测] 聚类 [描述] 关联分析 [描述] 异常检测 [预测]
分类例子
Tid Refund Marital Taxable Status Income Cheat
矿石硬度、{好，较好，最好}、成绩
中值、百分位、秩相关、游程检验、符号检验
日历日期、摄氏、均值、标准差、
华氏温度
皮尔逊相关、
t和F检验
绝对温度、货币量、计数、年龄、质量、长度、电流
几何平均、调和平均、百分比变差
属性类型
标称
变换任何一对一变换
序数
值的保序变换
新值 = f(旧值)
– (１)统计学的抽样、估计、假设检验
– (２)人工智能、模式识别、机器学习
的搜索算法／建摸技术、学习理论
– (３)最优化、进化算法、
信息论、信号处理、可视化、信息检索
统计学
人工智能、机器学习
– (４)数据库技术、并行计算
和模式识别
、分布式计算
传统的方法可能不适合
数据挖掘

《数据挖掘》课件

NumPy、Pandas、 Matplotlib等，能够方便地进行数据处理、建模和结果展示
。
Python的易读性和灵活性使得它成为一种强大的工具，可以快速地开发原型和实现复杂的算法。
Python在数据挖掘中主要用于数据清洗、特征工程、机器学习模型训练和评估等任务。
R在数据挖掘中的应用
01
等。
02
数据挖掘技术
聚类分析
聚类分析的定义
聚类分析是一种无监督学习方法，用于将数据集中的对象分组，使得同一组（即聚类）内的对象尽可能相似，而不同组的对象尽
可能不同。
常见的聚类算法
包括K-means、层次聚类、 DBSCAN等。
聚类分析的应用
在市场细分、模式识别、数据挖掘、统计学等领域有广泛应用。
04
Spark提供了Spark SQL、Spark MLlib和Spark GraphX等组件，可以进行结构化和非结构化数据的处理、机器学习、图计算等任务。
Tableau在数据可视化中的应用
01 02 03 04
Tableau是一款可视化数据分析工具，能够帮助用户快速创建各种图表和仪表板。
Tableau提供了直观的界面和强大的功能，支持多种数据源连接和数据处理方式。
03
到了广泛应用。
数据挖掘的应用场景
商业智能
通过数据挖掘技术，企业可以对市场趋势、客户行为等进行深入分析，从而制定更好的商
业策略。
金融
金融机构可以利用数据挖掘技术进行风险评估、客户细分和欺诈检测等。
医疗
数据挖掘在医疗领域的应用包括疾病诊断、药物研发和患者管理等。
科学研究
数据挖掘在科研领域的应用包括基因组学、天文学和气候学

【精品PPT】数据挖掘--分类课件ppt

16:06
9
分类模型的评估
对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果。
非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如，数据集包含10只爬行动物，990只爬行动物，此时，是否预测正确爬行动物对准确率影响不大。
更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。
数据集有10只非爬行动物，其中8只被预测为非爬行动物，特异度为8/10
精度(Precision):
TP/(TP+FP)
分类器预测了12只动物为爬行动物，其中10只确实是爬行动物，精度为10/12
准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP)
数据集包含23只动物，其中18只预测为正确的分类，准确率为18/23
训练集应用于建立分类模型测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation)：将初始采样分割成K个子样本(S1，S2,...,Sk)，取K-1个做训练集，另外一个做测试集。交叉验证重复K 次，每个子样本都作为测试集一次，平均K次的结果，最终得到一个单一估测。
16:06
16
K-近邻分类算法
K-近邻分类算法（K Nearest Neighbors，简称KNN）通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。
算法 4-2 K-近邻分类算法
输入：训练数据T；近邻数目K；待分类的元组t。

大数据分析与挖掘ppt优质版(30张)

随着大数据的广泛应用，数据安全和隐私保护将成为越来越重要的问题，需要采取更加有效的措施来保护用户隐私和数据安全。
跨领域应用拓展
大数据将在更多领域得到应用拓展，如医疗、教育、金融等，推动这些领域的数字化转型和创新发展。
ቤተ መጻሕፍቲ ባይዱ
02
数据分析基础
数据类型及来源
01
02
03
04
结构化数据
如关系型数据库中的表格数据，具有固定的数据结构和类型
建立大数据创新团队
组建专门的大数据创新团队，负责大数据技术的研发和创新应用，推动企业大数据战略的实施。
07
总结回顾与展望未来发展趋势
本次课程重点内容回顾
大数据分析基本概念及技术应用领域
数据预处理、特征提取与降维技术
深度学习在大数据分析中的应用与挑战
数据挖掘过程、算法分类及其应用场景
经典机器学习算法原理及实践案例
型、类别型等。
数据归一化
消除数据间的量纲差异，使数据具有可比性。
特征选择
选择与分析目标相关的特征，去除无关特征。
数据可视化呈现
图表类型选择
根据数据类型和分析目标选择合适的图表类型，如柱状图、
折线图、散点图等。
数据可视化工具
如Excel、Tableau、Power BI 等，可实现数据的快速可视化呈现。
建立数据集成与共享机制，实现企业内部不同系统之间的数据互通和共
享，提高数据利用效率。
培养和引进优秀人才团队
制定人才培养计划
针对企业内部员工，制定大数据人才培养计划，通过培训、实践等方式提升员工的大数据技能。
引进外部优秀人才
积极招聘具有大数据技能和经验的优秀人才，为企业的大数据战略提供有力的人才保障。

数据挖掘培训ppt课件

p.item(k-1)<q.item(k-1)
23
Prune算法：从C[k]中除去大小为k-1且不在 L[k-1]中的子集
(1) For all itemsets c∈C[k] do (2) For all (k-1)-subsets s of c do (3) if (sL[k-1]) (4) then delete c from C[k]
用户规定的关联规则必须满足的最小支持度。
最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
大项集(大项集、大物品集largeitemset)
支持度不小于最小支持度minsup的物品集
18
关联规则发现任务
给定一个事务数据库D，求出所有满足最小支持度和最小可信度的关联规则。该问题可以分解为两个子问题： 1) 求出D中满足最小支持度的所有大项集； 2) 利用大项集生成满足最小可信度的所有关联规
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90
年代初粗糙集(Rough Set) Pawlak 80年代初
9
知识发现的方法(2)
机器学习：
规则归纳：AQ算法决策树：ID3、C4.5 范例推理:CBR 遗传算法:GA 贝叶斯信念网络
41
数据仓库的相关概念
事实表（Fact）：存储用户需要查询分析的数据，事实表中一般包含多个维（Dimension）和度量（Measurement）。维：代表了用户观察数据的特定视角，如：时间维、地区维、产品维等。每一个维可划分为不同的层次来取值，如时间维的值可按年份、季度、月份来划分，描述了不同的查询层次。度量：是数据的实际意义，描述数据“是什么”，即一个数值的测量指标，如：人数、单价、销售量等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

9
用决策树归纳分类
什么是决策树？
➢ 类似于流程图的树结构
➢ 每个内部节点（非树叶节点）表示在一个属性上的测试
youth
➢ 每个分枝代表该测试的一个输出 student?
➢ 每个树叶节点存放一个类标号
age?
Middle aged
yes
senior credit_rating?
no yes
excellent fair
✓ 使用属性选择度量来选择将元组最好的划分为不同的类的属性 ✓ 递归的通过选定的属性（必须是离散值）来划分样本
➢ 树剪枝
✓ 决策树建立时，许多分枝反映的是训练数据中的噪声或离群点，树剪枝试图识别并剪去这种分枝，以提高对未知数据分类的准确性
CHENLI
11
决策树归纳策略
输入
➢ 数据分区D，训练元组和他们对应类标号的集合 ➢ attribute_list,候选属性的集合 ➢ Attribute_selection_method，指定选择属性的启发式过程
yes
Dave Assistant Prof 6
no
Anne Associate Prof 3
no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
CHENLI
6
第二步——用模型进行分类
分类规则
测试集
未知数据
(Jeff, Professor, 4)
用属性A将D划分为v个分区或子集后，为了得到准确的分类，我们还
需要多少信息？这个量由下式度量：
InA f(o D )jv 1||D D j||In(fD oj)
信息增益
Ga iInn(fA oI)(nA D (fD o) )
CHENLI
14
例8.1
age
income student credit_rating buys_computer
常用的属性选择度量
➢ 信息增益 ➢ 增益率 ➢ 基尼指数（Gini指数）
CHENLI
13
信息增益
选择具有最高信息增益的属性作为结点N 的分裂属性
pi 是D中任意元组属于类Ci的非零概率，并用|Ci, D|/|D| 估计对D中
的元组分类所需要的期望信息（熵）由下式给出：
m
Inf(D o) pi lo2 g (pi) i1
➢ 如果准确率可以接受，那么使用该模型来分类标签为未知的样本
CHENLI
5
第一步——建立模型
训练数据集
分类算法
NAME RANK
YEARS TENURED
Mike Assistant Prof 3
no
Mary Assistant Prof 7
yes
Bill Professor
2
yes
Jim Associate Prof 7
算法步骤
➢ 1. 树以代表训练样本的单个节点（N）开始 ➢ 2. 如果样本都在同一个类，则该节点成为树叶，并用该类标记 ➢ 3. 否则，算法调用Attribute_selection_method，选择能够最好的将样本分类的属性；
确定“分裂准则”，指出“分裂点”或“分裂子集” ➢ 4. 对测试属性每个已知的值，创建一个分支，并以此划分元组 ➢ 5. 算法使用同样的过程，递归的形成每个划分上的元组决策树。一旦一个属性出现在一
youth
high
no
fair
no
youth
high
no
excellent
➢ 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 ➢ 新数据使用训练数据集中得到的规则进行分类
无指导的学习（用于聚类）
➢ 每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的 ➢ 通过一系列的度量、观察来建立数据中的类编号或进行聚类
CHENLI
8
•决策树归纳
CHENLI
个节点上，就不在该节点的任何子节点上出现 ➢ 6. 递归划分步骤停止的条件
✓ 划分D（在N节点提供）的所有元组属于同一类 ✓ 没有剩余属性可以用来进一步划分元组——使用多数表决 ✓ 没有剩余的样本 ✓ 给定分支没有元组，则以D中多数类创建一个树叶
CHENLI
12
属性选择度量
属性选择度量
➢ 属性选择度量是一种选择分裂准则，将给定类标号的训练元组最好的进行划分的方法 ➢ 理想情况，每个划分都是“纯”的，即落在一个给定分区的所有元组都属于相同的类 ➢ 属性选择度量又称为分裂规则
no
yes
no
yes
决策树：Buys_computer
CHENLI
10
用决策树归纳分类
使用决策树分类
➢ 给定一个类标号未知的元组X，在决策树上测试元组的属性值，跟踪一条由根到叶节点的路径，叶节点存放该元组的类预测。
➢ 决策树容易转换为分类规则
决策树的生成由两个阶段组成
➢ 决策树构建：自顶向下递归地分治方式
NAME RANK
YEARSTENURED
Tom Assistant Prof 2 Merlisa AssociateProf 7
no Tenured?
no
George Professor
5
yes
Joseph Assistant Prof 7
yes
CHENLI
7
有指导的学习 VS. 无指导的学习
有指导的学习（用于分类）
✓ 训练样本：训练数据集中的单个样本（元组）
➢ 学习模型可以由分类规则、判定树或数学公式的形式提供
第二步，使用模型，对将来的或未知的对象进行分类
➢ 评估模型的预测准确率
✓ 测试集：要独立于训练样本集，避免“过分拟合”的情况
✓ 对每个测试样本，将已知的类标号和该样本的学习模型类预测比较
✓ 准确率：被模型正确分类的测试样本的百分比
预测
➢ 建立连续函数值模型，比如预测空缺值
典型应用
➢ 信誉证实（分类为低，中，高风险） ➢ 医疗诊断（肿瘤是良性还是恶性） ➢ 性能预测 ➢ 目标市场
CHENLI
4
一个两步过程
第一步，建立一个分类模型，描述预定数据类或概念集
➢ 假定每个元组属于一个预定义的类，由一个类标号属性确定
➢ 基本概念
✓ 训练数据集：由为建立模型而被分析的数据元组形成
数据挖掘与商务智能
范勤勤
物流研究中心
CHENLI
1
第八章分类
1 基本概念
2 决策树归纳
3 贝叶斯分类方法
4 基于规则的分类
5 模型评估ห้องสมุดไป่ตู้选择
6 提高分类准确率的技术
CHENLI
2
•基本概念
CHENLI
3
分类 VS. 预测
分类
➢ 预测类标号（离散值） ➢ 根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据