第一章数据挖掘2015

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一步骤选择
变换后的数据
清理筛选目标数据
第四步骤分析
第二步骤处理
2015/11/19
18
18
第一步骤：选择

数据选择：目标数据收集数据就是进行原始需要被挖掘的数据采集。例如：做肺癌处方的数据挖掘，要采集肺癌处方的信息，或原有的患者信息中导出，形成数据子集。原始数据的采集非常费时费力，通常在费用中占相当大的比重。可以采用较小规模的数据对问题的可行性进行初步研究。

Weka 文本数据挖掘大数据数据挖掘关键技术作业讨论及说明

考试方式：2学时
参考教材
JiaweiHan and MichelineKamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2012.

被挖掘的知识

用到的技术

适合的应用

剔除了“的、和、等”三个虚词， 2012年把高频词连起来说就是“发展经济社会建设、加强推进改革政策、促进提高保障服务” 。
http://www.tagxedo.com/app.html
http://www.tagxedo.com/app.html
KDD过程（续）

确定KDD目标：根据用户的要求，确定KDD要发现的知识类型。因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。选择算法：根据确定的任务选择合适的知识发现算法，包括选取合适的模型和参数。
KDD过程（续）

数据挖掘：这是整个KDD过程中很重要的一个步骤。运用前面选择的算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来（如产生式规则等）是数据挖掘的目的。模式解释：对在数据挖掘步骤中发现的模式（知识）进行解释。经过用户或机器评估后，可能会发现这些模式中存在冗余或无关的模式，此时应该将其剔除。如果模式不能满足用户的要求，就需要返回到前面的某些处理步骤中反复提取。
模式
预处理
变换后数据已预处理数据
筛选
数据
目标数据
KDD过程（续）

数据准备：了解KDD应用领域的有关情况。包括熟悉相关的背景知识，搞清用户需求。数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。

竞争压力大

提供更好、更个性化的服务以取得优势（例如：在客户关系管理方面）
科学动机的观点

科学观点

数据在以非常高的速度进行采集和储存(GB/小时)

卫星上的远程传感器扫描天空的望远镜
产生遗传表达数据的微振列芯片
产生terabytes数据量的科学模拟

传统技术处理原始数据不可行数据挖掘或许可以帮助科学家
尿布啤酒[0.5%, 75%] (相关性还是因果关系？) 构建描述和区分类别或者概念的模型以预测未来数据

频繁模式，关联，相关性 vs 因果关系

分类和预测

例如，基于气候对国家进行分类，或者基于每英里汽油损耗量对汽车进行分类

非平凡（的过程）：有一定的智能性、自动性（仅仅给出所有数据之和不能算做一个发现过程）。

有效性：所发现的模式对新的数据仍保持一定的可信度。新颖性：所发现的模式应该是新的。潜在有用性：所发现的模式将来有实际的效用。

最终可理解性：能被用户理解，如：简洁性
有趣性：有效性、新颖性、潜在有用性、最终可理解性的综合。
Motivation - Background

数据的爆炸性增长: 从 terabytes (TB) 到 petabytes (PB)

数据采集与数据的实用性例. 中国网页规模的变化(2012wk.baidu.com01)
CNNIC统计的中国网页数量(2012-01)
商业动机的观点

商业观点

数据来源：网页数据，电子商务，在商场/杂货店的购物统计，银行/信用卡，交易记录电脑变得越来越便宜，性能也越来越高
KDD过程（续）
知识评价：将发现的知识以用户能了解的方式呈现给用户。在上述步骤中，数据挖掘占据非常重要的地位，它主要是利用某些特定的知识发现算法，在一定的运算效率范围内，从数据中发现出有关知识，决定了整个KDD过程的效果与效率。

数据挖掘和商业智能
支持商业决定的增长潜力
最终用户
决策

2015/11/19
21
第四步骤分析

结果的解释评估（interpretation and evaluation）

对挖掘出来的结果（模式），经用户或机器评价，剔除冗余或无关的模式。模式不满足用户需求时，返回到某一步，重新挖掘。如：重新选择数据、采用新的变换方法、设定新的数据挖掘参数，或者换一种挖掘算法（如分类方法，不同的方法对不同的数据有不同的效果）。挖掘的结果是面向用户的，对挖掘结果进行可视化或者转化为用户易于理解的形式表示。影响挖掘结果质量的因素：采用的算法、数据本身的质量与数量数据挖掘的过程是一个不断反馈的过程可视化在数据挖掘过程的各个阶段都扮演着重要角色，如用散点图或直方图等统计可视化技术来显示有关数据，以期对数据有一个初步的了解。
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
13
希望利用数据挖掘技术解决“数据丰富”与 “知识贫乏”之间的矛盾
数据
数据挖掘
借用挖掘金矿的名称
知识

一个例子
——BEER & Diaper！
15
什么是数据挖掘?

从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。
范明、孟小峰等译，数据挖掘概念与技术，机械工业出版社，2012年8月相关学术论文其它参考书

数据挖掘导论 Pangning- Tan 人民邮电出版社 2006.5
Data Mining

Introduction Data Description Classification Decision tree KNN Evaluating the performance of a classifier Association Analysis Apriori Cluster Analysis K-means Anomaly Detection Some methods
19
2015/11/19
第二步骤：处理
数据预处理部分，消除噪声、不一致、冗余，把数据转换成比较容易被数据挖掘的格式及内容。内容处理：年龄六十岁60 分组：老年、青年、等

格式处理：年龄出生日期1950年转成61。
2015/11/19
20
第三步骤：挖掘
运用工具和算法，进行挖掘，完成分类、关联、聚类、估计、预测等功能，发现数据中的规律。例如：关联分析中常用apriori算法，算法就是一种计算方法，例如：计算一个班上有多少人：可以用加法或乘法。加法和乘法就是算法。

在数据分类和数据细分方面在假说的形成方面
动机：为什么需要数据挖掘？

数据里经常有一些并不是很明显的“隐藏”的信息人们可能会花费数周的时间才能发现有用的信息许多数据根本就没有被分析。“我们淹没在数据里，却没获取到足够的知识 “需要是发明之母”——数据挖掘——大量数据集的自动分析
KDD过程（续）

数据预处理：对步骤2中选出的数据进行再处理，检查数据的完整性及数据一致性，消除噪声，滤除与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。数据变换：根据知识发现的任务对经过预处理的数据进行再处理，主要是通过投影或利用数据库的其他操作减少数据量。
数据挖掘功能：分类方案

一般功能

描述性数据挖掘
预测性数据挖掘

不同角度导致不同的分类

数据角度：被挖掘的数据种类
知识角度：被发现的知识的种类方法角度：所用技术的种类应用角度：采用的应用的种类
数据挖掘的功能（1）

多维概念描述：特征和区别

归纳，总结，对比数据的特点，例如，干与湿地区
空间的，时空的，多媒体的，文本和网页数据软件程序，科学模拟

新的和复杂的应用
多维度的数据挖掘

被挖掘的数据

相关的，数据仓库，交易的，流，面向对象的/相关的，有效的，空间的，时间序列，文本，多媒体，异构的，遗留的，WWW 描述，区别，关联，分类，聚类，趋势/偏差，离群分析，等
多个/集成功能和在多层次的挖掘面向数据库，数据仓库(OLAP)，机器学习，统计，可视化，等零售，电信，银行，缺陷分析，生物数据挖掘，股票市场分析，文本挖掘，网页挖掘，等
第一讲绪论

什么是数据挖掘? 数据挖掘的步骤数据挖掘的主要功能

概念/类描述：特征化和区分关联分析分类和预测聚类分析孤立点分析演变分析

在何种数据上进行数据挖掘数据挖掘技术的前景

什么激发了数据挖掘？
——“数据爆炸”但“知识贫乏”
信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据8
商业分析师
数据展示
可视化技术
数据挖掘
数据分析师
发现信息
数据探索
数据汇总，查询和报告
数据预处理/集成，数据仓库数据来源
论文，文件，网页文档，科学实验，数据库系统
DBA
数据挖掘：多学科的合流
•关系数据模型 •SQL •关联规则算法 •数据仓库 •可扩展性技术 •相似性度量 •层次聚类 •IR系统 •模糊查询 •文本数据 •网页搜索引擎 •贝叶斯定理 •回归分析 •EM算法 •K-means聚类 •时间序列分析 •算法设计技术 •算法分析 •数据结构

评注

2015/11/19
22
KDD的一般步骤
传统KDD的一般步骤（细化）
数据清理: (这个可能要占全过程60％的工作量
) 数据集成数据选择数据变换数据挖掘（选择适当的算法来找到感兴趣的模式）模式评估知识表示
KDD过程
解释/评价知识数据挖掘变换
Data Mining 数据挖掘
Jiawei Han, Micheline Kamber,
and Jian Pei
Modified by Zhifang Liao（廖志芳）
1
Self Introduction

Zhifang Liao zfliao@csu.edu.cn Research interests: data mining, Social Network, Recommended System
•神经网络 •决策树算法
为何不能用传统的数据分析方法？

数据量太大

算法必须具有高扩展性以处理tera-bytes的数据微阵列可能有成千上万个维度

数据的高维度性

数据的高复杂性

流数据和传感数据
时间序列数据，时空数据，序列数据结构数据，图片，社会网络和多关联联数据
异构数据库和遗留数据库
4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 1995 1996 1997 1998 1999

From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

什么是数据挖掘?

数据挖掘（从数据中发现知识）

从大量的数据中提取出有趣的（非平凡的，隐含的，事先未知的，潜在的）模式或者知识
从数据库发现知识（KDD）

别称

知识抽取数据/模式分析数据考古数据捕捞信息收获商业智能
数据挖掘步骤知识发现过程
第三步骤挖掘
数据挖掘算法预处理及变换解释/评估
2
Now it’s your turn
o o o
Name, program, where from,supervisor Areas of interest Course taken, experiences related to this course
3
基本信息

总学时: 32学时上课：24学时上机：8学时作业：2次 Presentation：4次