第一章:引言2

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
增加一倍,性能也将提升一倍
Kryder定律:存储密度每过13个月增加一倍
人们能够处理的数据越来越少,需要运用数据挖掘技术理 解与利用数据
The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated.
Data Warehouse
Data Cleaning
Selection
Data Integration
Databases
1.2 数据挖掘的基本问题
KDD过程
1.数据准备:熟悉KDD应用领域的背景知识与用 户需求。
2.数据选取:目的是确定目标数据,根据用户需 求从原始数据库中选取相关数据或样本。 3.数据预处理:
1.2 数据挖掘定义与基本问题

不是数据挖掘
号码

是数据挖掘
从电话目录中查找电话 利用搜索引擎查找 “Amazon”相关的信息
根据特定背景(如 Amazon rainforest, Amazon.com ),将搜 索引擎返回的文档进行聚类 根据用户人口信息、职业信息, 消费信息,识别信用卡欺诈行为
第八章
作业、答疑与考试
作业: 应在1周内完成作业,并提交到
dm_assignment@126.com ( liukeen@mail.xjtu.edu.cn ) ,
计算机??-姓名-学号-第?次作业
答疑:地点为西一楼438房间 考试:总成绩为20%平时成绩+80%考试成绩
课本与参考书
1. Jiawei Han 等编著. 数据挖掘: 概念与技术(第3版),机械 工业出版社,2012年
下面哪些属于数据挖掘任wk.baidu.com?
对于公司客户的性别对其进行分类。 对于公司客户的带来的利润进行分类。 根据历史记录对未来的股票价格进行预测。
1.2数据挖掘的基本问题
KDD过程:数据挖掘是 其中的核心阶段
Pattern Evaluation
Data Mining Task-relevant Data
2. 郑庆华、刘均、田锋,Web知
识挖掘:理论、方法与应用, 科学出版社, 2010年
本章内容
1.1 数据挖掘产生背景
1.2 数据挖掘定义与基本问题 1.3 数据挖掘的主要任务 1.4 数据挖掘面临的挑战
基本要求:了解数据挖掘产生的动机,掌握数
据挖掘的基本概念、功能、处理过程及典型的 应用领域。
1.1 数据挖掘产生背景
1.2 数据挖掘的基本问题
数据挖掘的对象
关系数据库、数据仓库 高级数据库
• 流数据、传感器数据

• • • • • •
多媒体数据
时序数据库、序列数据库 文本数据 Web数据 图数据、社会网络数据 空间数据库 面向对象数据库

异构数据库和历史(legacy)数据库
1.2 数据挖掘的基本问题
Databases and Data Mining (KDD’95-98)
1998 :ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorations
More conferences on data mining
• PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc.
1.2 数据挖掘的基本问题
时序数据库、序列数据库
存放与时间与序列相关的数据 对时序数据、序列数据的挖掘,有助于提示事物发展的本 质规律,可以发现数据对象的演变特征或对象变化趋势。
空间数据库
空间数据库中存储的海量地理信息、空间信息,包括对象
的空间拓朴特征以及对象在时间上的状态变化等 常见空间数据类型: 地理信息、遥感图像数据、医学图像 数据
数据仓库 决策支持 (90年代)
在新英格兰的分部去年 三月的销售额是多少? 波士顿得出什么结论?
联机分析处理(OLAP) 多维数据库 数据仓库
在各种层次上提供回 溯的、动态的数据信 息
数据挖掘
下个月波士顿的销售会 怎么样?为什么?
高级算法 多处理器计算机 海量数据库
提供预测性的信息
1.1 数据挖掘产生背景
Data Mining
Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses
Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems
1.2 数据挖掘的基本问题
以商务智能视角
End User Increasing potential to support business decisions
Decision Making Data Presentation Visualization Techniques
Business Analyst Data Analyst
关系数据库(RDBMS) 结构化查询语言 (SQL) ODBC
Oracle Sybase Informix IBM Microsoft
Pilot Comshare Arbor Cognos Microstrategy Pilot Lockheed IBM SGI 其他初创公司
在记录级提供历史性 的、动态数据信息
流数据
流数据是连续的、有序的、变化的、快速输入的数据 应用场合:网络监控 、网页点击流、股票市场等 难点问题:与传统数据库技术相比,流数据在存储、查询、
访问、实时性的要求等方面都有很大区别。
多媒体数据库
以二进制大对象形式存储的图形(graphics)、图像 (image)、声音(audio)、视频(video)等数据 难点问题:多媒体数据的特征提取(语义鸿沟)、基于相 似性的模式匹配等。
and potentially useful) 信息或模式 其它名称
Knowledge discovery in databases (KDD), knowledge extraction, data/pattern analysis, data archeology,
information harvesting, business intelligence, etc.
• • • • • 检查数据的完整性及数据一致性, 消除噪声 滤除与数据挖掘无关的冗余数据 填充丢失的数据。 通过投影或利用数据库的其他操作减少数据量。
1.2 数据挖掘的基本问题
1.2 数据挖掘的基本问题
KDD过程
4.确定KDD任务:根据应用需求,确定KDD要发现 的知识类型。如分类、总结、关联规则、聚类等。
DBA
1.2 数据挖掘的基本问题
数据挖掘的多维视图
挖掘对象:关系的, 事务的, 面向对象的, 空间的, 时间序列的, 文 本的, 多媒体的, 异构的, 历史的, WWW等 所挖掘的知识:关联, 分类, 聚类, 趋势, 偏离和孤立点分析等 所用技术:面向数据库的, 数据仓库 (OLAP), 机器学习, 统计学, 可 视化, 神经网络等 应用:零售, 电讯, 银行, 欺骗分析, DNA 挖掘, 股票市场分析, Web 挖掘, Web日志分析等
Wystan Hugh Auden 1906-1973
For too many facts are as bad as none at all
1.1 数据挖掘产生背景
1960s: 数据收集, 数据库创建, IMS层次和网状 DBMS 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的, 等.) 和面向应用 的 DBMS (空间的, 科学的, 工程的, 等.)
1.2 数据挖掘的基本问题
异构数据库和历史(legacy)数据库
历史数据库是一系列的异构数据库系统的集合,包括各同 像关系数据库、网络数据、文件系统等等。 关键在于实现不同数据库之间的数据信息资源、硬件设备 资源和人力资源的合并和共享。 对于异构数据库系统,实现共享数据共享应当达到两点: 一是实现数据库转换;二是实现数据的透明访问。
课程性质、目的
数据挖掘:从大量数据中挖掘未知的、有价值的、 新知识或规律。
性质:基础理论
目的(SIGKDD Curriculum Committee):
1. 使学生掌握课程挖掘领域的“持久性的科学原理与概 念”,了解数据挖掘的发展方向以及主要应用领域; 2. 初步具备利用数据挖掘知识解决实际问题的能力;
ACM Transactions on KDD starting in 2007
本章内容
1.1 数据挖掘产生背景
1.2 数据挖掘定义与基本问题 1.3 数据挖掘的主要任务 1.4 数据挖掘面临的挑战
1.2 数据挖掘定义与基本问题
数据挖掘(Data mining):从海量数据中抽取
有趣的(non-trivial, implicit, previously unknown
自20世纪80年代起,开始了数据挖掘技术的研究
1989: IJCAI Workshop on Knowledge Discovery in Databases
1991-1994 :Workshops on Knowledge Discovery in Databases 1995-1998: International Conferences on Knowledge Discovery in

1990s—2000s: 数据挖掘和数据 仓库, 多媒体数据库, 和 Web 数 据库
1.1 数据挖掘产生背景
进化阶段
数据搜集 (60年代)
商业问题
过去五年中我的总收入 是多少?
支持技术
计算机、磁带和磁盘
产品厂家
IBM CDC
产品特点
提供历史性的、静态 的数据信息
数据访问 (80年代)
在新英格兰的分部去年 三月的销售额是多少?
需要是发明之母 数据爆炸问题: 自动数据收集工 具和成熟的数据库技术导致大量 数据存放在数据库, 数据仓库, 和 其它信息存储中
• Business,scicence, Society…
正被数据淹没,但却缺乏知识
1.1 数据挖掘产生背景
Moore定律:集成电路上可容纳的晶体管数目,约每隔18个月便会
哪个阶段的时间开销最大?最小?
1.2 数据挖掘的基本问题
100 90 80 70 60 50 40 30 20 10 0
Business Data Data Objective Preparation Mining Determination
Analysis of Results and Knowledge Assimilation
5.选择算法:根据确定的任务选择合适的知识发 现算法,包括选取合适的模型和参数。 6.数据挖掘:这是整个KDD过程中的核心步骤。 运用前面选择的算法,从数据库中提取用户感兴 趣的知识,并以一定的方式表示出来(如产生式 规则等)。
1.2 数据挖掘的基本问题
KDD过程
7. 模式解释与评价:对在数据挖掘步骤中发现的模式 (知识)进行解释。经过用户或机器评估后,剔除冗 余或无关的模式。如果模式不能满足用户的要求,就 需要返回到前面的步骤进行迭代。 8.模式部署:将发现的模式进行部署,并进行应用。
3. 结合实际案例与数据集,开展一系列数据挖掘实验,培 养科研能力和理论联系实践的能力。
课程内容
教学内容
基本概念,功能,处理过程 及应用领域
数据预处理
章节
第一章 第二章 第三章:关联规则挖掘
各类挖掘任务的问题 描述与成熟算法
第四章:序列模式分析 第五章:分类
第六章:聚类
复杂类型数据的挖掘 第七章
标准规范、工具和发展趋势
数据挖掘
第一章:引言
两个例子
例1 美国情报学家Don Swanson通过对生物医学文献检索系统 Medline (超过 2,000 万篇文献、 5,600 种期刊)中的文献进行关
联分析,取得多个重要医学发现
血小板聚集 钙通道阻滞剂 偏头痛 传播皮层抑郁 精神紧张

两个例子
例2 (Google Flu Trends): 利用收集到的无数个人搜索词汇 (每天超过30亿次搜索)数据进行分析,比政府流行病学家 提前2个星期预测出流感爆发
相关文档
最新文档