数据挖掘算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

- (a) KDD-06、ICDM ‘06和SDM ’06的程序委员会成员 (Program Committee members) - (b) ACM KDD创新大奖和IEEE ICDM研究贡献奖的获奖者们
§ 根据票数排名筛选出10大算法 (如果票数相同，则按字母顺序进行排名)
Page 5
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
Page 7
18种通过审核的候选算法
§ 链接挖掘 (Link Mining)
- 9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale hypertextual Web search engine. In WWW-7, 1998. - 10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. PageRank HITS
- (a) 算法名称 - (b) 提名理由摘要 - (c) 算法的代表性论文
§ 每个提名算法都应该被相关领域的研究者们广泛引用和使用，每位提名者给出的同类算法应该是数据挖掘重要应用领域的代表
Page 4
三步鉴定流程
使用以下三个步骤来选出数据挖掘的10大算法
2. 审核 (Verification)
得票数发表时间作者
61 60 58 52 48 46 45 45 45 34 1993 1967 1995 1994 2000 1998 1997 1996 2001 1984 Quinlan, J.R MacQueen, J.B Vapnik, V.N Rakesh Agrawal McLachlan, G Brin, S. Freund, Y. Hastie, T Hand, D.J L.Breiman
§ 统计学习 (Statistical Learning)
- 5. SVM: Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag New York, Inc. - 6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. SVM EM
数据挖掘10大算法
Top 10 Algorithms in Data Mining
ICDM 2006 Panel 12/21/2006, Coordinators: Xindong Wu and Vipin Kumar
注：ICDM的全称是IEEE International Conference on DataMining
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
Page 14
开放式讨论
§ 由算法的原作者和陈述人来编写调查表 § 如何更好地使用这10大算法？ § 是否需要为这10大算法专门编写一本书？
- IDMer注：该书已出版，参见右图封面。书名为《The Top Ten Algorithms in Data Mining》，编著者为XinDong Wu和Vipin Kumar
PrefixSpan
§ 集成挖掘 (Integrated Mining)
- 16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. CBA
§ 粗糙集 (Rough Sets)
Page 6
18种通过审核的候选算法
§ 分类 (Classification)
- 1. C4.5: Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc. - 2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, Belmont, CA, 1984. - 3. K Nearest Neighbours (kNN): Hastie, T. and Tibshirani, R. 1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). 18, 6 (Jun. 1996), 607-616. - 4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, 385-398. C4.5 CART kNN Naïve Bayes
Page 12
数据挖掘十大算法：一览表
排名挖掘主题
1 2 3 4 5 6 7 8 9 10 分类聚类统计学习关联分析统计学习链接挖掘集装与推进分类分类分类
算法
C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART
§ 聚类 (Clustering)
- 11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967. - 12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. K-Means BIRCH
§ 关联分析 (Association Analysis)
- 7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. - 8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. Apriori FP-Tree
Sunstone Zhang 编译
数据挖掘者 http://idmer.blog.sohu.com
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
Page 2
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
- 17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Finding reduct
Page 10
算法陈述
§ 每种算法的陈述包括以下内容：
- a) 算法的概要描述 - b) 算法的应用 - c) 该算法目前和未来的研究方向
§ 每位陈述人会介绍自己
- 对该算法有深入的研究 - 尽量使用算法原作者的幻灯片，可以适当修改 - 提出自己对该算法的观点和意见
Page 11
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
Βιβλιοθήκη Baidu
Page 8
18种通过审核的候选算法
§ 序列模式 (Sequential Patterns)
- 14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996. - 15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. GSP
Page 3
三步鉴定流程
使用以下三个步骤来选出数据挖掘的10大算法
1. 提名 (Nominations)
§ 在2006年9月召开的ICDM会议上，我们邀请了ACM KDD创新大奖(Innovation Award)和 IEEE ICDM研究贡献奖(Research Contributions Award)的获奖者们来参与数据挖掘10大算法的选举，每人提名10种他认为最重要的算法 § 除一人未参与外，其他获奖者均给出了算法的提名 § 每个提名中均需同时给出以下信息：
§ 图挖掘 (Graph Mining)
- 18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern Mining. In ICDM '02. gSpan
Page 9
大纲
1. 三步鉴定流程 2. 18种通过审核的候选算法 3. 算法陈述 4. 数据挖掘10大算法：一览 5. 开放式讨论
讲解人
Hiroshi Motoda Joydeep Ghosh Qiang Yang Christos Faloutsos Joydeep Ghosh Christos Faloutsos Zhi-Hua Zhou Vipin Kumar Qiang Yang Dan Steinberg
Page 13
§ 袋装与推进 (Bagging and Boosting)
- 13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139. AdaBoost
§ 在2006年10月，我们通过Google Scholar对每个提名算法的引用情况进行了审核，从候选名单中删除了低于50篇论文引用的算法 § 最终剩下18种提名算法通过了审核，它们分属10类数据挖掘主题
3. 投票 (Voting)
§ 我们邀请了更多的专业人士来从这些候选算法中投票选出10大算法，他们包括