厦门大学数据挖掘概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2018/12/5



第六章介绍挖掘大型数据库中的关联规则。讲授关 联规则的意义和量度,维布尔关联规则,多层关联规则, 由关联规则到相关分析。另外,引入相应分析作为数据 挖掘中关联规则的提升,介绍相应分析适应性检验的基 本思想及方法,及相应分析适应性的分层量度方法。利 用可视化方法对所多度相应分析方法进行了验证。 第七章理解一些其它的数据挖掘技术。模糊聚类、神 经网络、时序稠密数据集的挖掘技术等。 为了满足实际的需要,我们将利用所讲授的方法, 对某地区中国移动通讯用户消费数据库、某大学大学生 隐形教育调查资料和上证指数收盘价信息进行剖析,以 便让学生充分地领悟到数据挖掘的理论和实际价值。
2018/12/5



第三章介绍数据准备。在这一章将分析原始大型数据库的基本表 述和特征,了解数据准备的不同技术,比较去除丢失值的不同方 法,构造时间相关数据的统一表述方法,实现一些数据预处理技 术。 第四章介绍Rough集的基本模型及有关概念。这一章讲授知识的分 类观点和概念的边界观点,知识的约简和决策表的约简。以统计 思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对 事务性数据库事务项及属性项压缩的方法,构建事务性数据库列 联表示的模型的思想。并利用所介绍的方法进行实证分析。 第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向 聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方 法进行了比较和检验。让学生在实际应用中认识到其方法的可靠 性与稳定性。
2018/12/5






张尧庭,谢邦昌,朱世武,数据采掘入门及应用——从统计技术 看数据采掘,中国统计出版社,北京,(2001.6) 史忠植著,知识发现,清华大学出版社,北京,(2002.1) 刘同明等编著,《数据挖掘技术及其应用》,国防工业出版社, (2001.9) 数据挖掘讨论组,数据挖掘的研究历史和现状, http://datamining.126.com/ 闪四清等译(Mehmed Kantardzic),数据挖掘——概念、模型、 方法和算法,清华大学出版社,(2003.8) 张银奎等译(Hand, D),数据挖掘原理,机械工业出版社, (2003.4) 范明等译,统计学习基础——数据挖掘、推理与预测,电子工业 出版社,(2004.1)
数据挖掘中的统计 方法及其实践
朱建平
厦门大学经济学院计划统计系
2018/12/5
The Statistical Method for Data Mining and Its Application
Zhu Jianping
Xiamen University
2018/12/5
教学目的
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统 计学、人工智能、数据库管理及数据可视化等学科的边缘学科。
2018/12/5
参考文献
1.
2.
3.
4.
5.
6.
Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.A Friedman, J. H., Data Mining and Statistics: What’s The Connection? Technical Report, Stanford University Glymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997) Han, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education Press, (2001) Theresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-195 Nelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach,Paper of PhD
2018/12/5
讲授的基本内容


随着计算机技术和电子数据获取方面的不断进展以及 Internet和各种局域网的广泛普及,人们获得的数据正 以前所未有的速度急剧增加,最近几十年产生了很多超 大型数据库,遍及超级市场销售、银行存款、天文学、 粒子物理、化学、医学以及政府统计等领域。 那么,如何从这些大型数据库中发现有用的信息、模 式和知识?如何开发有效的挖掘方法?已成为众多科技 工作者共同关注的焦点。在过去几年,一个称为“数据 挖掘” (Data Mining)的新领域得到了快速发展,已在 经济、商业、金融、天文等行业得到了成功的应用,在 国际上掀起了一股空前的研究热潮。
用统计的观点看,它可以看成是通过计算机对大量的复杂数据 集的自动探索性分析。作为一种独立于应用的技术,一经出现立即受 到广泛的关注。
本课程从统来自百度文库学的角度介绍该领域的全面情况,讲授有趣的数 据挖掘技术和方法,并讨论应用和研究方向。其目的是针对海量数据, 让我们掌握利用计算机分析数据、理解数据,并具有基于丰富的数据 做出决策的能力。
2018/12/5



本课程从统计学的观点出发,立足理论,着眼应用, 在明确了数据挖掘定义和对象的基础上,从七个方面对数 据挖掘的理论及统计方法和应用进行较为详细的介绍。 第一章介绍数据挖掘概况。讲授数据挖掘的定义, 并以技术和商业的角度给出了数据挖掘的定义。在此基础 上,澄清数据挖掘与知识发现的关系,明确数据挖掘的对 象。最后对数据分析提出一些思考。 第二章数据挖掘与统计学的关系。以数据挖掘的发展 历史为线索,讲授数据挖掘领域研究所取得成果,解释数 据挖掘自身的特点,从中领悟到了数据挖掘与统计学的关 系。以现代统计方法的基本思想,让学生认识到统计学在 数据挖掘中所做的贡献,即统计方法在数据挖掘中强有力 的作用。
相关文档
最新文档