第一章数据挖掘2015

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一步骤 选择
变换后的数据
清理筛选 目标数据
第四步骤 分析
第二步骤 处理
2015/11/19
18
18
第一步骤:选择




数据选择:目标数据 收集数据 就是进行原始需要被挖掘的数据采集。 例如:做肺癌处方的数据挖掘,要采集肺癌处方 的信息,或原有的患者信息中导出,形成数据子 集。 原始数据的采集非常费时费力,通常在费用中 占相当大的比重。 可以采用较小规模的数据对问题的可行性进行 初步研究。

Weka 文本数据挖掘 大数据数据挖掘关键技术 作业讨论及说明

考试方式:2学时
参考教材
JiaweiHan and MichelineKamber. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2012.

被挖掘的知识


用到的技术


适合的应用

剔除了“的、和、 等”三个虚词, 2012年把高频词连 起来说就是“发展 经济社会建设、加 强推进改革政策、 促进提高保障服 务” 。
http://www.tagxedo.com/app.html
http://www.tagxedo.com/app.html
KDD过程(续)


确定KDD目标:根据用户的要求,确定KDD要发现 的知识类型。因为对KDD的不同要求会在具体的知 识发现过程中采用不同的知识发现算法。如分类、 总结、关联规则、聚类等。 选择算法:根据确定的任务选择合适的知识发现算 法,包括选取合适的模型和参数。
KDD过程(续)


数据挖掘:这是整个KDD过程中很重要的一个步骤。运用 前面选择的算法,从数据库中提取用户感兴趣的知识, 并以一定的方式表示出来(如产生式规则等)是数据挖 掘的目的。 模式解释:对在数据挖掘步骤中发现的模式(知识)进 行解释。经过用户或机器评估后,可能会发现这些模式 中存在冗余或无关的模式,此时应该将其剔除。如果模 式不能满足用户的要求,就需要返回到前面的某些处理 步骤中反复提取。
模式
预处理
变换后 数据 已预处理 数据
筛选
数据
目标数据
KDD过程(续)


数据准备:了解KDD应用领域的有关情况。包括熟 悉相关的背景知识,搞清用户需求。 数据选取:数据选取的目的是确定目标数据,根据 用户的需要从原始数据库中选取相关数据或样本。 在此过程中,将利用一些数据库操作对数据库进行 相关处理。

竞争压力大

提供更好、更个性化的服务以取得优势(例如:在客户关系管理方面)
科学动机的观点

科学观点

数据在以非常高的速度进行采集和储存(GB/小时)

卫星上的远程传感器 扫描天空的望远镜
产生遗传表达数据的微振列芯片
产生terabytes数据量的科学模拟

传统技术处理原始数据不可行 数据挖掘或许可以帮助科学家
尿布啤酒[0.5%, 75%] (相关性 还是 因果关系?) 构建描述和区分类别或者概念的模型以预测未来数据


频繁模式,关联,相关性 vs 因果关系


分类和预测

例如,基于气候对国家进行分类,或者基于每英里汽 油损耗量对汽车进行分类

非平凡(的过程):有一定的智能性、自动性(仅仅给出所有数 据之和不能算做一个发现过程)。

有效性:所发现的模式对新的数据仍保持一定的可信度。 新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。



最终可理解性:能被用户理解,如:简洁性
有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。
Motivation - Background

数据的爆炸性增长: 从 terabytes (TB) 到 petabytes (PB)

数据采集与数据的实用性 例. 中国网页规模的变化(2012wk.baidu.com01)
CNNIC统计的中国网页数量(2012-01)
商业动机的观点

商业观点

数据来源:网页数据,电子商务,在商场/杂货店的 购物统计,银行/信用卡,交易记录 电脑变得越来越便宜,性能也越来越高
KDD过程(续)
知识评价:将发现的知识以用户能了解的方式呈现 给用户。 在上述步骤中,数据挖掘占据非常重要的地位,它 主要是利用某些特定的知识发现算法,在一定的运 算效率范围内,从数据中发现出有关知识,决定了 整个KDD过程的效果与效率。

数据挖掘和商业智能
支持商业决定的增长潜力
最终用户
决策

2015/11/19
21
第四步骤 分析

结果的解释评估(interpretation and evaluation)


对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关 的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择 数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖 掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户 易于理解的形式表示。 影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图 或直方图等统计可视化技术来显示有关数据,以期对数据有一个初 步的了解。
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
13
希望利用数据挖掘技术解决“数据丰富”与 “知识贫乏”之间的矛盾
数据
数 据 挖 掘
借用挖掘金矿的名称
知识

一个例子
——BEER & Diaper!
15
什么是数据挖掘?

从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解 的模式的非平凡过程。
范明、孟小峰等译,数据挖掘概念与技术,机械工 业出版社,2012年8月 相关学术论文 其它参考书



数据挖掘导论 Pangning- Tan 人民邮电出版社 2006.5
Data Mining






Introduction Data Description Classification Decision tree KNN Evaluating the performance of a classifier Association Analysis Apriori Cluster Analysis K-means Anomaly Detection Some methods
19
2015/11/19
第二步骤:处理
数据预处理部分,消除噪声、不一致、冗余,把 数据转换成比较容易被数据挖掘的格式及内容。 内容处理:年龄 六十岁60 分组:老年、青年、等

格式处理:年龄 出生日期1950年转成61。
2015/11/19
20
第三步骤:挖掘
运用工具和算法,进行挖掘,完成分类、关联、 聚类、估计、预测等功能,发现数据中的规律。 例如: 关联分析中常用apriori算法, 算法就是一种计算方法, 例如:计算一个班上有多少人:可以用加法或乘 法。 加法和乘法就是算法。

在数据分类和数据细分方面 在假说的形成方面
动机:为什么需要数据挖掘?

数据里经常有一些并不是很明显的“隐藏”的信息 人们可能会花费数周的时间才能发现有用的信息 许多数据根本就没有被分析。“我们淹没在数据里,却没获取到足够的知 识 “需要是发明之母”——数据挖掘——大量数据集的自动分析
KDD过程(续)


数据预处理:对步骤2中选出的数据进行再处理,检查数 据的完整性及数据一致性,消除噪声,滤除与数据挖掘 无关的冗余数据,根据时间序列和已知的变化情况,利 用统计等方法填充丢失的数据。 数据变换:根据知识发现的任务对经过预处理的数据进 行再处理,主要是通过投影或利用数据库的其他操作减 少数据量。
数据挖掘功能:分类方案

一般功能

描述性数据挖掘
预测性数据挖掘

不同角度导致不同的分类


数据角度:被挖掘的数据种类
知识角度:被发现的知识的种类 方法角度:所用技术的种类 应用角度:采用的应用的种类
数据挖掘的功能(1)

多维概念描述:特征和区别

归纳,总结,对比数据的特点,例如,干与湿地区
空间的,时空的,多媒体的,文本和网页数据 软件程序,科学模拟

新的和复杂的应用
多维度的数据挖掘

被挖掘的数据

相关的,数据仓库,交易的,流,面向对象的/相关的,有效的, 空间的,时间序列,文本,多媒体,异构的,遗留的,WWW 描述,区别,关联,分类,聚类,趋势/偏差,离群分析,等
多个/集成功能和在多层次的挖掘 面向数据库,数据仓库(OLAP),机器学习,统计,可视化,等 零售,电信,银行,缺陷分析,生物数据挖掘,股票市场分析, 文本挖掘,网页挖掘,等
第一讲 绪论



什么是数据挖掘? 数据挖掘的步骤 数据挖掘的主要功能

概念/类描述:特征化和区分 关联分析 分类和预测 聚类分析 孤立点分析 演变分析

在何种数据上进行数据挖掘 数据挖掘技术的前景

什么激发了数据挖掘?
——“数据爆炸”但“知识贫乏”
信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据8
商业分析师
数据展示
可视化技术
数据挖掘
数据分析师
发现信息
数据探索
数据汇总,查询和报告
数据预处理/集成,数据仓库 数据来源
论文,文件,网页文档,科学实验,数据库系统
DBA
数据挖掘:多学科的合流
•关系数据模型 •SQL •关联规则算法 •数据仓库 •可扩展性技术 •相似性度量 •层次聚类 •IR系统 •模糊查询 •文本数据 •网页搜索引擎 •贝叶斯定理 •回归分析 •EM算法 •K-means聚类 •时间序列分析 •算法设计技术 •算法分析 •数据结构

评注

2015/11/19
22
KDD的一般步骤
传统KDD的一般步骤(细化)
数据清理: (这个可能要占全过程60%的工作量
) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模 式) 模式评估 知识表示
KDD过程
解释/评价 知识 数据挖掘 变换
Data Mining 数据挖掘
Jiawei Han, Micheline Kamber,
and Jian Pei
Modified by Zhifang Liao(廖志芳)
1
Self Introduction

Zhifang Liao zfliao@csu.edu.cn Research interests: data mining, Social Network, Recommended System
•神经网络 •决策树算法
为何不能用传统的数据分析方法?

数据量太大

算法必须具有高扩展性以处理tera-bytes的数据 微阵列可能有成千上万个维度

数据的高维度性


数据的高复杂性

流数据和传感数据
时间序列数据,时空数据,序列数据 结构数据,图片,社会网络和多关联联数据
异构数据库和遗留数据库
4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 1995 1996 1997 1998 1999

From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

什么是数据挖掘?

数据挖掘(从数据中发现知识)

从大量的数据中提取出有趣的( 非平凡的,隐含的, 事先未知的,潜在的)模式或者知识
从数据库发现知识(KDD)

别称

知识抽取 数据/模式分析 数据考古 数据捕捞 信息收获 商业智能
数据挖掘步骤 知识发现过程
第三步骤 挖掘
数据挖掘 算法 预处理 及变换 解释/评估
2
Now it’s your turn
o o o
Name, program, where from,supervisor Areas of interest Course taken, experiences related to this course
3
基本信息

总学时: 32学时 上课:24学时 上机:8学时 作业:2次 Presentation:4次
相关文档
最新文档