数据挖掘导论翻译第一部分PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
© 浙源自文库万里学院
22
相关的概念
目标: 研究每个概念及其与数据挖掘的联系.
数据库/OLTP系统 模糊集和模糊逻辑 信息检索(Web 搜索引擎) 维数据建模 数据仓库 OLAP/决策支持系统 统计学 机器学习 模式匹配
© 浙江万里学院
23
数据库和OLTP系统
具有特定的关联结构和模式
5
数据挖掘算法
目标: 为数据找一个适合的模型
– 描述型模型 – 预测型模型
偏好 – 必须使用一些标准来进行模型选 择
搜索 – 所有的算法都要使用一些技术对 数据进行搜索
© 浙江万里学院
6
数据库处理 vs. 数据挖掘
查询
– 容易定义 – SQL
数据
– 操作性数据
输出
– 精确的 – 数据库子集
输出在[0,1]之间. f(x): x属于F的可能性. 1-f(x): x不属于F的可能性. EX:
– T = {x | x 很高} – f(x) 就是x属于高的可能性
DM: 预测和分类都是模糊的.
© 浙江万里学院
25
模糊集
© 浙江万里学院
26
分类和预测
Loan Amnt
Reject Accept
© 浙江万里学院
19
数据挖掘的社会影响
隐私 特殊领域的分析 不经过授权的使用
© 浙江万里学院
20
从数据库观点看数据挖掘
可伸缩性 现实世界的数据 更新 使用方便
© 浙江万里学院
21
数据挖掘未来的发展
仅仅是许多工具的集合 需要人为定义需求,人为解释
复杂的“查询语言”(DMQL) 知识与数据发现管理系统 数据挖掘的跨行业标准过程
例子: 证券市场 预测未来的市值 确定不用时间序列的相似性 确定时间序列行为
© 浙江万里学院
12
数据挖掘VS知识发现
知识发现 (KDD): 从数据中发现有用的
(隐藏的)模式.——知识抽取、信息发 现、探索性数据分析、信息收获、无指 导模式识别.
数据挖掘: 使用算法来抽取信息和模式,
是KDD过程的一个步骤.
© 浙江万里学院
3
引言
数据量正在以惊人的速度增长 用户希望得到深层的信息 如何得到??
得到数据中隐藏着的信息
数据挖掘(DM)
© 浙江万里学院
4
数据挖掘的定义
从数据库中发现隐藏的信息 为数据寻找一个适合的模型 类似的定义
– 探索性数据分析 – 数据驱动发现 – 归纳学习
© 浙江万里学院
Reject Accept
Simple
© 浙江万里学院
Fuzzy
27
信息检索
信息检索 (IR): 从文本数据中检索出所需的信息.
图书馆(管理)学 数字资源 Web 搜索引擎 基于传统关键词的搜索 简单例子:
找出所有关于数据挖掘的书.
DM: 相似度度量; 文本数据挖掘.
© 浙江万里学院
28
© 浙江万里学院
13
KDD 过程
Modified from [FPSS96C]
选择: 从不同是数据源获取数据. 预处理: 清洗数据. 变换: 将不用数据源获得的数据转成统一
的格式.
数据挖掘: 产生期望的挖掘结果. 解释/评价: 向最终用户提交结果.
© 浙江万里学院
14
可视化技术
图形的 几何的 基于图标的 基于象素的 层次的 混合的
© 浙江万里学院
15
•关系数据模型 •SQL •关联规则 •数据仓库 •数据压缩技术
•算法设计 •算法分析 •数据结构
数据挖掘发展
•相似度度量 •聚类 •信息检索系统 •Web 搜索引擎
•贝叶斯定理 •回归分析 •EM 算法 •K均值聚类 •时间序列分析
•神经网络 •决策树算法
© 浙江万里学院
16
信息检索 (续)
相似性: 度量查询得到的文档与用户有兴
趣的文档的相似程度.
有效性.
度量方法:
– 查准率 = 检索到的相关文档
检索到的文档数
– 召回率 = 检索到的相关文档
实际相关的文档数
© 浙江万里学院
– 顾客具有那些购买习惯. (聚类)
– 寻找出常常与牛奶一起被购买的商品. (关联规则)
© 浙江万里学院
8
数据挖掘模型及任务
© 浙江万里学院
9
基本数据挖掘任务
分类 将数据映射到预先定义好的群组或类
– 有指导学习 – 模式识别 – 预测
回归 将数据项映射到一个实值预测变量(线
性回归,非线性回归,Logistic回归).
聚类 将类似的数据归并为同一类别的过程.
– 无指导的学习 – 分割
© 浙江万里学院
10
基本数据挖掘任务
汇总 将数据映射到伴有简单描述的子集.
– 特征化 – 泛化
关联规则(连接分析) 揭示数据之间相
互关系的一项数据挖掘任务.
– 偏好的分析 – 关联规则 – 序列发现.
© 浙江万里学院
11
时间序列分析
数据挖掘教程 第一部分 导论
1
数据挖掘提纲
第一部分 – 概述 – 相关概念 – 数据挖掘技术
第二部分 – 分类 – 聚类 – 关联规则
第三部分 – Web 挖掘 – 空间数据挖掘 – 时序数据挖掘
© 浙江万里学院
2
概述
目标: 提供数据挖掘的基本概念.
数据挖掘的定义 数据挖掘与数据库 数据挖掘任务 数据挖掘的发展 数据挖掘的问题
查询
– 很难定义 – 没有一个精确的语言
Data
– 非操作性数据
Output
– 模糊的 – 非数据库子集
© 浙江万里学院
7
例子分析
数据库
– 找出所有名字叫 Smith的信用卡申请人.
– 找出上一个月购买了价值 $10,000 以上商品的 顾客. – 找出所有购买了牛奶的顾客
数据挖掘
– 找出那些低信用度的申请人. (分类)
– (ID,Name,Address,Salary,JobNo)
数据模型
– 实体-关系(ER) – 关联
处理 查询:
SELECT Name FROM T WHERE Salary > 100000
DM: 不确定的查询
© 浙江万里学院
24
模糊集和模糊逻辑
模糊集: 一个集合,隶属于函数f,f是一个实值函数,
数据挖掘的问题
人的作用 过拟和 异常点 结果的解释 结果可视化 大型数据库 高维数据
© 浙江万里学院
17
数据挖掘的问题(续)
多媒体数据 缺失数据 不相关数据 噪声数据 变化数据 集成 应用
© 浙江万里学院
18
数据挖掘度量
有效性 投资回报率 (ROI) 准确性 空间、时间