数据挖掘方向经典文献

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘方向经典文献

[1] 教材：Jiawei Han and Micheline Kamber，“Data Mining: Concepts and Techniques”, 2nd ed. March 2006. ISBN 1-55860-901-6

该教材全面系统地介绍了数据挖掘的概念、原理、方法和技术，其内容不但涵盖了分类、预测、关联规则、聚类等经典的数据挖掘任务，同时也介绍了流数据挖掘、序列数据挖掘、图形挖掘、社会网络分析、多关系挖掘、对象挖掘、空间挖掘、多媒体挖掘、文本和Web 数据挖掘等新型的数据挖掘内容。全文由浅入深，通俗易懂，每个问题和算法的讲解都配有生动详细的例子供读者理解。

[2] 作业之一：数据仓库技术报告

[3] 作业之一：数据仓库和联机分析

[4] 作业之二：数据挖掘关键技术

[5] 作业之二：关联规则挖掘技术报告

[6] 论文：Mining Association Rules between Sets of Items in Large Databases Rakesh Ag rawal, Tomasz Imielinski, Arun Swami Proceedings of the 1993 ACM SIGMOD Internatio nal Conferenceon Management of Data

该文于1993年第一次提出了挖掘顾客交易数据库中项集间的关联规则的问题，至今已被引用多达900多次，成为关联规则挖掘领域的经典必读文献。在此文基础之上，1994年，该文作者又在“Fast Algorithms for Mining Association Rules”中提出了关联规则挖掘的算法Apriori算法，该算法同样被引用多达900多次，成为关联规则挖掘的经典算法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对Apriori算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广；提出了不产生候选集的FP-Growth算法等。

[7] 论文：BIRCH: An Efficient Data Clustering Method for Very Large Databases Tian Zhang (IBM), Raghu Ramakrishnan (University of Wisconsin at Madison), Miron Livny (Universit of Wisconsin at Madison)

该文提出了一种新颖而巧妙的聚类方法，获得了sigmod2006久经时间考验的论文奖（Test of Time Award）。该文首先采用层次聚类的方法，将需要聚类的信息综合存储在一种数据结构Cluster Feature中, 并且将多个Cluster Features组织成一棵类似于B树的平衡树。然后针对该平衡树应用别的聚类方法，最终将数据聚集成多个类。

[8] 论文：Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals Adam Bosworth; Surajit Chaudhuri; Jim Gray; Andrew Layman; Frank Pellow; Hamid Pirahesh; Don Reichart; Murali Venkatrao May 1997

本文第一次对Data Cub操作符进行了定义。Data Cub操作是多维数据分析的基础，在此基础之上，发展了数据方体的概念，并出现了数据方体的预计算、存储、压缩和查询等技术。这些技术的研究和普及，推动了数据仓库和多维数据分析技术的发展。该文迄今为止被引用多达300多次。

[9] 论文：Mining Data Streams: A Review，Mohamed Medhat Gaber, Arkady Zaslavsky and Shonali Krishnaswamy(Centre for Distributed Systems and Software Engineering, Monash University). In SIGMOD 2005.

本文总结了从数据流挖掘研究发展以后近10年的研究成果。通过在理论基础，挖掘算法（聚类，分类，频繁模式，关联规则）和系统应用三个方面详细的做了介绍，并提出了今后数据流挖掘研究存在的主要问题和研究方向。本文对于今后的数据流挖掘研究工作具有重要的作用。

[10] 论文：Research Issues in Data Stream Association Rule Mining, Nan Jiang,Le Gruenwald(The University of Oklahoma, Norman). In SIGMOD 2006

本文主要在数据流挖掘中的关联规则挖掘这一领域总结了近15年的研究成果。对数据挖掘模型，内存管理，关联规则的一遍扫描的特性以及资源利用方面介绍了关联规则挖掘的意义，并在时序查询，多维流数据，在线交互处理，分布式环境以及结果可视化方面介绍了关联规则的应用。本文对于今后数据流上关联规则挖掘的研究工作具有重要作用。

[11] 论文：A Framework for Clustering Evolving Data Streams, Charu C. Aggarwal(T. J. Watson Resch. Ctr.), Jiawei Han, Jianyong Wang(UIUC), Philip S. Yu(T. J. Watson Resch. Ctr.), In VLDB 2003.

本文提出了一种聚类的框架，基于以往的Birch算法进行了改进，通过在线挖掘和离线挖掘两个部分来实现了对数据流的高效的聚类，并通过倾斜的时间窗口保存聚类结果，本文被多篇文章引用，是研究数据流聚类必读的经典论文之一。