数据挖掘概念与技术第一章PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据利用
数据淹没,但却缺乏知识
信息技术的进化
···
数据挖掘的自动化分析的海量数据集 文件处理->数据库管理系统->高级数据库:系统高级数据分析
2021
3
定义:从大量的数据中提取有趣的(非平凡的,隐 含的,以前未知的和潜在有用的)模式或知识。
“数据中发现知识”(KDD)
2021
4
选择和变换
评估和表示
第一章 引论
2021
1
1.1 为什么进行数据挖掘 1.2 什么是数据挖掘 1.3 可以挖掘什么类型的数据 1.4 可以挖掘什么类型的模式 1.5 使用什么技术 1.6 面向什么类型的应用 1.7 数据挖掘的主要问题 1.8 小结
2021
2
数据爆炸
海量数据,爆炸式增长
来源:网络,电子商务,个人 类型:图像,文本···
设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:
一、更新客户所购商品的库存信息 二、保存客户付款信息--可能包括与银行系统的交互 三、生成订单并且保存到数据库中 四、更新用户相关信息,例如购物数量等等
2021
9
其他类型的数据
股票交易数据 文本 图像 音频视频 未知的
2021
10
1.4.1 类/概念描述:特征化与区分
类/概念
数据特征化
目标数据的一般特性或特征汇总
数据区分
将目标类数据对象的一般性与一个或多个 对比类对象的一般特性进行比较
特征化和区分
2021
11
1.4.2 挖掘频繁模式、关联和相关性
频繁模式是在数据中频繁出现的模式
1.频繁项集、频繁子序列、频繁子结构 2.挖掘频繁模式可以发现数据中的关联和相关性 例如:单维与多维关联
仅搜索有趣的模式: 优化
◦ 数据挖掘系统能够仅发现有趣的模式吗? ◦ 方法
首先找出所有模式, 然后过滤掉不是有趣的那些. 仅产生有趣的模式— 挖掘查询优化
2021
17
2021
18
1.6.1 商务智能
例如:挖掘潜在客户
商务决策
1.6.2 Web搜索引擎
Google 的流感趋势
· · ·
2021
2021
13
1.4.4 聚类分析
分析数据对象,不考虑类标号
聚类原则: 最大化类内的相似性, 最小化类间的相似性
2021
14
1.4.5 离群点分析
离群点: 与数据的的一般行为或模型不一致
孤立点可以被视为例外, 但对于欺骗检测和罕见事件分析, 它是相当有用的
2021
15
1.4.6 所有模式都是有趣的吗
数据源1
数据源2
····
数据源3
数据源4
数据仓库
2021
7
数据立方体
联机分析处理OLAP(On-Line Analytical Processing)
2021
8
事物数据 数据库事务(Database Transaction) ,是指作为单 个逻辑工作单元执行的一系列操作,要么完全地执行, 要么完全地不执行。
支持度
2021置信度
12
1.4.3 用于预测分析的分类与回归 分类和预测
✓ 找出描述和识别类或概念的模型( 函数), 用于将来的预测
例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类
✓ 表示: 决策树(decision-tree), 分类规则, 神经网络
回归
建立连续值函数模型
一般线性回归,logistic回归
数据挖掘
模式
清理和集成
数据仓库
数据库
2021
5
数据库数据 数据库管理系统(DBMS):数据+软件 关系数据库:表组成
关键字
属性
元组
cust_ID 001 ···
name Tom
age gender income · · ·
25
1
4500
customer表
2021
6
数据仓库
从多个数据源收集的信息存储库,存放在一致 的模式下,并且通常驻留在单个站点上。
2021
20
有效性和可伸缩性
✓ 数据挖掘算法的有效性和可伸缩性 ✓ 并行、分布式和增量挖掘算法
数据库类型的多样性
✓ 处理复杂的数据类型 ✓ 挖掘动态的、网络的、全球的数据库
数据挖掘与社会
✓ 数据挖掘的社会影响 ✓ 保护隐私的数据挖掘 ✓ 无形的数据挖掘
2021
21
数据挖掘: 从大量数据中发现有趣的模式 数据库技术的自然进化, 具有巨大需求和广泛应用 KDD 过程包括数据清理, 数据集成, 数据选择, 变换,
19
挖掘方法
✓ 挖掘各种新的知识类型 ✓ 挖掘多维空间中的知识 ✓ 数据挖掘——跨学科的努力 ✓ 提升网络环境下的发现能力 ✓ 处理不确定性、噪声或不完全数据 ✓ 模式评估和模式或约束指导的挖掘
用户界面
✓ 交互挖掘 ✓ 结合背景知识 ✓ 特定的数据挖掘和数据挖掘查询语言 ✓ 数据挖掘结果的表示和可视化
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000.
T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996.
客观与主观的兴趣度度量 :
◦ 客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等. ◦ 主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性
(actionability), 等.
2021
16
1.4.6 所有模式都是有趣的吗 发现所有有趣的模式: 完全性
◦ 数据挖掘系统能够发现所有有趣的模式吗? ◦ 关联 vs. 分类 vs. 聚类
数据挖掘, 模式评估, 和知识表示 挖掘可以在各种数据存储上进行 数据挖掘功能: 特征, 区分, 关联, 分类, 聚类, 孤立
点 和趋势分析, 等. 数据挖掘系统的分类 数据挖掘的主要问题
2021
22Βιβλιοθήκη U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996.
一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式 都是有趣的
◦ 建议的方法: 以人为中心, 基于查询的, 聚焦的挖掘
兴趣度度量 : 一个模式是 有趣的 如果它是 易于被人理解的, 在某种 程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 或验证了 用户希望证实的某种假设
相关文档
最新文档