数据挖掘——第四章分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
推论
决策树
决策树基本概念
决策树 决策树是一种典型的分类方法,首先对数据进行处理,利用 归纳算法生成可读的规则和决策树,然后使用决策对新数据进行 分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树
决策树基本概念
决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then形式;
C4.5
CART
kNN
Naï Bayes ve
§统计学习(Statistical Learning)
5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. SpringerVerlag New York, Inc. 6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York.
数据挖掘10大算法产生过程
1
三步鉴定流程 18种通过审核的候选算法
2
3 4 5
算法陈述
数据挖掘10大算法:一览 开放式讨论
1. 提名 (Nominations) 2006年9月在香港举办的国际会议ICDM会议上,邀请ACM KDD创新大奖 (Innovation Award)和 IEEE ICDM研究贡献奖(Research Contributions Award)的获奖 者们来参与数据挖掘10大算法的选举,每人提名10种他认为最重要的算法。 除一人未参与外,其他获奖者均给出了算法的提名。 每个提名中均需同时给出以下信息:
3. 投票 (Voting) 邀请更多的专业人士来从这些候选算法中投票选出10大算法,他们包括
- (a) KDD-06、ICDM ‘06和SDM ’06的程序委员会成员(Program Committee members) - (b) ACM KDD创新大奖和IEEE ICDM研究贡献奖的获奖者们
决策树基础
女孩家长 安排相亲 女孩 不厌其烦 女孩 提出决策树 父母筛选 候选男士
决策树基础
实例
No. 1 2 3 4 5 6 7 头痛 是(1) 是(1) 是(1) 否(0) 否(0) 否(0) 是(1) 肌肉痛 是(1) 是(1) 是(1) 是(1) 否(0) 是(1) 否(0) 体温 正常(0) 高(1) 很高(2) 正常(0) 高(1) 很高(2) 高(1)
§图挖掘(Graph Mining)
18.gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern Mining. In ICDM '02.
gSpan
十大经典算法
1. C4.5(ID3算法 ) 2. The k-means algorithm 即K-Means算法 3. Support vector machines 4. The Apriori algorithm 5. 最大期望(EM)算法 6. PageRank 7. AdaBoost 8. kNN: k-nearest neighbor classification 9. Naive Bayes 10. CART: 分类与回归树
患流感
N(0) Y(1) Y(1) N(0) N(0) N(1) Y(1)
生活工作中的决策 (做?不做?) •总是优先选取最具有决定性意义的 辅助条件进行判定 如—打不打室外羽毛球? •刮风是最具有决定意义的因素
主要内容
决策树基本概念 决策树算法 决策树研究问题 主要参考文献
决策树
决策树基本概念
- (a) 算法名称 - (b) 提名理由摘要 - (c) 算法的代表性论文
每个提名算法都应该被相关领域的研究者广泛引用和使用,每位提名者给出的同类 算法应该是数据挖掘重要应用领域的代表。 2. 审核 (Verification) 在2006年10月,通过Google Scholar对每个提名算法的引用情况进行了审核,从候选名 单中删除了低于50篇论文引用的算法 最终剩下18种提名算法通过了审核,它们分属10类数据挖掘主题
Apriori
FP-Tree
18种通过审核的候选算法
§链接挖掘(Link Mining)
9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. 10.HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998.
17.Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, KluwerAcademic Publishers, Norwell, MA, 1992
Finding reduct
AdaBoost
18种通过审核的候选算法
§序列模式(Sequential Patterns)
14.GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. 15.PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayaland M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by PrefixProjected Pattern Growth. In ICDE '01.
决策树分类的步骤
数据库
建立模型
训练样本(training samples)
测试样本(testing samples)
评估模型
13
2013-6-18
Βιβλιοθήκη Baidu
决策树
决策树基本概念
解决分类问题的一般方法 通过以上对分类问题一般方法的描述,可以看出分类问题 一般包括两个步骤: 1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。 2、预测应用(推论) 根据建立的分类模型,对测试集合进行测试。
SVM
EM
§关联分析(Association Analysis)
7. Apriori: Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. 8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00.
根据票数排名筛选出10大算法 (如果票数相同,则按字母顺序进行排名)
数据挖掘10大算法产生过程
1
三步鉴定流程 18种通过审核的候选算法
2
3 4 5
算法陈述
数据挖掘10大算法:一览 开放式讨论
18种通过审核的候选算法
§分类(Classification)
1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. 3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398.
GSP
PrefixSpan
§集成挖掘(Integrated Mining)
16.CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98.
CBA
§粗糙集(Rough Sets)
2、推理过程完全依赖于属性变量的取值特点; 3、可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重要性,减少变量的数目提供参考。
决策树
决策树基本概念
关于归纳学习(1) 决策树技术发现数据模式和规则的核心是归纳算法。 归纳是从特殊到一般的过程。归纳推理从若干个事实中表 征出的特征、特性和属性中,通过比较、总结、概括而得出一 个规律性的结论。 归纳推理试图从对象的一部分或整体的特定的观察中获得 一个完备且正确的描述。即从特殊事实到普遍性规律的结论。 归纳对于认识的发展和完善具有重要的意义。人类知识的增长 主要来源于归纳学习。
决策树
决策树基本概念
解决分类问题的一般方法 训练集(类标号已知)
TID 1 2 3 4 A1 Y N Y N A2 100 125 400 415 A3 L S L M 类 N N Y N
学习算法
归纳
学习模型 模型 应用模型
检验集(类标号未知)
TID 1 2 3 4 A1 Y N Y N A2 100 125 400 415 A3 L S L M 类 ? ? ? ?
PageRank
HITS
§聚类(Clustering)
11.K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. 12.BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96.
关于分类问题
分类(Classification)任务就是通过学习获得一个目标函数 (Target Function)f, 将每个属性集x映射到一个预先定义好的类 标号y。
分类任务的输入数据是纪录的集合,每条记录也称为实例 或者样例。用元组(X,y)表示,其中,X 是属性集合,y是一个 特殊的属性,指出样例的类标号(也称为分类属性或者目标属性)
K-Means
BIRCH
§袋装与推进(Bagging and Boosting)
13.AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139.