第六章 数据挖掘概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 数据挖掘概述
本章内容
数据挖掘的由来 数据挖掘的定义 数据挖掘的基本概念 数据挖掘的主要功能 数据挖掘模型和实现流程 数据挖掘应用
数据挖掘的由来
网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化
网络之后的下一个技术热点
主要功能
5. 时间序列分析(Time-Series Analysis) 时间序列分析即预测(Prediction),是 指通过对大量时间序列数据的分析找到特定 的规则和感兴趣的特性,包括搜索相似序列 或者子序列,挖掘序列模式、周期性、趋势 和偏差。预测的目的是对未来的情况作出估 计。
主要功能
6. 其它功能 包括:偏差分析(Deviation Analysis)、孤 立点分析(Outlier Analysis)等。
只搜索有趣的模式: 数据挖掘算法的最优化问题
数据挖掘系统可以仅仅发现有趣的模式吗? 方法 首先生成所有模式然后过滤那些无趣的. 仅仅生成有趣的模式—挖掘查询优化
数据挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining) 业务理解 模型,最先在1996年被 提出,当前的白皮书 版本是1.0。 系统部署 目的是把数据挖掘的 过程标准化, 使数据挖 掘项目的实施速度更 快、成本更低、更可 靠并且更容易管理。
数据挖掘应用——市场分析和管理(2)
顾客分析
哪类顾客购买那种商品 (聚类分析或分类预测)
客户需求分析
确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客
提供概要信息
多维度的综合报告 统计概要信息 (数据的集中趋势和变化)
数据挖掘应用——公司分析和风险管理
财务计划
现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率, 趋势分析等等)
资源计划
总结和比较资源和花费
竞争
对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中
数据挖掘应用——欺诈行为检测和异常模式的发现
方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险
职业病人, 医生以及相关数据分析 不必要的或相关的测试
电信: 电话呼叫欺骗行为
电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析 该模型发现与期待标准的偏差
零售产业
分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的
反恐怖主义
其他应用
体育竞赛
美国NBA的29个球队中,有25个球队使用了IBM 分析 机构的数据挖掘工具,通过分析每个对手的数据(盖帽、 助攻、犯规等数据)来获得比赛时的对抗优势。
数据挖掘与其他科学的关系
数据库系统 统计学
机器学习
数据挖掘
可视化
算法
其他学科
实施数据挖掘的目的
不再是单纯为了研究,更主要的是为商业决 策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据 量非常大,而其中真正有价值的信息却很少, 因此需要从大量的数据中经过深层分析,获 得有利于商业运作、提高竞争力的信息,就 像从矿石中淘金一样,数据挖掘也由此而得 名。
主要功能
3. 分类与估值(Classification and Estimation) 分类指通过分析一个类别已知的数据集的 特征来建立一组模型,该模型可用以预测类别 未知的数据项的类别。该分类模型可以表现为 多种形式:分类规则(IF-THEN),决策树或 者数学公式,乃至神经网络。 估值与分类类似,只不过它要预测的不是 类别,而是一个连续的数值。
Pilot、Lockheed、 高级算法、多处理器计算机、 提供预测性 IBM、SGI、其他 海量数据库 的信息 初创公司
数据挖掘(Data Mining)的定义
数据挖掘是从大量的、不完全的、有噪声的、模糊 的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识 的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大 量的企业数据进行探索和分析,揭示隐藏的、未知 的或验证己知的规律性,并进一步将其模型化的有 效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析 和决策支持等。
数据挖源自文库的应用
数据分析和决策支持
市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交 叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分 析 欺骗检测和异常模式的监测 (孤立点)
其他的应用
文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析
数据挖掘和数据仓库
数据挖掘和OLAP
完全不同的工具,基于的技术也大相径庭 OLAP基于用户假设。
what happened〔查询和报表工具是告诉你数据库中都 有什么〕 what next〔 OLAP更进一步告诉你下一步会怎么样〕 what if〔如果我采取这样的措施又会怎么样〕
数据理解
数据准备 数据 建立模型
模型评估
业务理解(Business Understanding) 阶段
确定业务目标:分析项目的背景,从业务视点分析 项目的目标和需求,确定业务角度的成功标准; 项目可行性分析:分析拥有的资源,条件和限制, 风险估计,成本和效益估计; 确定数据挖掘目标:明确确定数据挖掘的目标和成 功标准,数据挖掘的目标和业务目标是不一样的, 前者指技术上的,例如生成一棵决策树等; 提出项目计划:对整个项目做一个计划,初步估计 用到的工具和技术。
主要功能
例2:对比移动电话费月消费额超出1000元的 客户群与移动电话费月消费额低于100元的 客户群。 利用数据挖掘可作出如下描述:移动电 话月消费额超出1000元的客户80%以上年龄 在35-50岁之间,且月收入5000元以上;而 移动电话月消费额低于100元的客户60%以 上要么年龄过大要么年龄过小,且月收入 2000元以下。
网络时代面临的信息问题:
信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。
“要学会抛弃信息”
数据爆炸但知识贫乏
数据库的容量已达上万亿水平(T)-- 1,000,000,000,000个字节 全球信息量以惊人的速度急剧增长--据估 计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数 据
主要功能
2. 关联分析(Association Analysis) 从一个项目集中发现关联规则,该规则 显示了给定数据集中经常一起出现的属性- 值条件元组。 例如:关联规则X=>Y所表达的含义是 满足X的数据库元组很可能满足Y。关联分 析在交易数据分析、支持定向市场、商品目 录设计和其他业务决策等方面有着广泛的应 用。
模式兴趣度的客观和主观度量
客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等 主观度量: 基于用户对数据的判断。比如:出乎意料的、 新颖的、可行动的等等
能够产生所有有趣模式并且仅产生有趣模 式吗?
找出所有有趣的模式: 数据挖掘算法的完全性问题
数据挖掘系统能够产生所有有趣的模式吗? 试探搜索 vs.穷举搜索 关联vs. 分类vs. 聚类
支持数据挖掘技术的基础
激发了数据挖掘的开发、应用和研究的兴趣的四个主要 技术理由: 超大规模数据库的出现,例如商业数据仓库和计算 机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能 力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。
从商业数据到商业信息的进化
数据挖掘本质上是一个归纳的过程,不是用于验证 某个假定的模式(模型)的正确性,而是在数据库 中自己寻找模型。 数据挖掘和OLAP有一定的互补性。
基本概念
数据:是指一个有关事实F的集合(如学生档案数据 库中有关学生基本情况的各条记录),用来描述事 物有关方面的信息。一般而言,这些数据都是准确 无误的。 信息: 是事物运动的状态和状态变化的方式。
天文学
JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮 助下发现了22颗新的恒星
网上冲浪
通过将数据挖掘算法应用于网络访问日志,从与市场相 关的网页中发现消费者的偏爱和行为, 分析网络行销的有 效性,改善网络站点组织。这就是新兴的WEB挖掘研究
数据挖掘与传统数据分析方法区别
知识
人们实践经验的结晶且为新的实践所证实的; 是关于事物运动的状态和状态变化的规律;是 对信息加工提炼所获得的抽象化产物。 知识的形式可能是模式、关联、变化、异常以 及其他有意义的结构。
主要功能
1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描 述并/或描述它与某一对照数据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客 户资料,然后利用数据挖掘进行分析,获得这类客 户的总体性描述:35-50岁,有工作,月收入5000 元以上,拥有良好的信用度…;
数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出 一个假设然后通过数据验证 数据挖掘在一定意义上是基于发现驱动的:模式都是通 过大量的搜索工作从数据中自动提取出来 。即数据挖 掘是要发现那些不能靠直觉发现的信息或知识,甚至是 违背直觉的信息或知识,挖掘出的信息越是出乎意料, 就可能越有价值。
随着数据挖掘技术的发展,可能还会继续出现 新的数据挖掘功能。
所有模式都是有趣的吗?
数据挖掘可能产生数以千计的模式或规则,但并不 是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量
一个模式是有趣的,如果(1) 它易于被人理解 ;(2) 在某种程度上,对于新的或测试数据是有效的;(3)具 有潜在效用;(4)新颖的;(5)符合用户确信的某种 假设
进化阶段 数据搜集 (60年代) 数据访问 (80年代) 商业问题 “过去五年中我的总 收入是多少?” 支持技术 产品厂家 产品特点 提供历史性 的、静态的 数据信息 在记录级提 供历史性、 动态数据信 息
计算机、磁带和磁盘
IBM,CDC
“在新英格兰的分部 去年三月的销售额 是多少?” “ 在新英格兰的分部 数据仓库; 去年三月的销售额 决策支持 是多少?波士顿据 (90年代) 此可得出什么结 论?” 数据挖掘 “下个月波士顿的销 (正在流 售会怎么样?为什 行) 么?”
主要功能
4. 聚类分析(Clustering Analysis) 聚类分析又称为“同质分组”或者“无 监督的分类”,指把一组数据分成不同的 “簇”,每簇中的数据相似而不同簇间的数 据则距离较远。相似性可以由用户或者专家 定义的距离函数加以度量。 好的聚类方法应保证不同类间数据的相 似性尽可能地小,而类内数据的相似性尽可 能地大。
数据挖掘应用——市场分析和管理(1)
数据从那里来?
信用卡交易, 会员卡, 商家的优惠卷, 消费者投 诉电话, 公众生活方式研究
目标市场
构建一系列的“客户群模型”,这些顾客具有 相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式
交叉市场分析
货物销售之间的相互联系和相关性,以及基于 这种联系上的预测
关系数据库(RDBMS), 结构化查询语言(SQL)、 Sybase、Informix、IBM 联机分析处理(OLAP)、 多维数据库、数据仓库
Oracle、Sybase、 Informix、IBM、 Microsoft
在各种层次 Pilot、Comshare、 上提供回溯 Arbor、Cognos、 的、动态的 Microstrategy 数据信息
本章内容
数据挖掘的由来 数据挖掘的定义 数据挖掘的基本概念 数据挖掘的主要功能 数据挖掘模型和实现流程 数据挖掘应用
数据挖掘的由来
网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化
网络之后的下一个技术热点
主要功能
5. 时间序列分析(Time-Series Analysis) 时间序列分析即预测(Prediction),是 指通过对大量时间序列数据的分析找到特定 的规则和感兴趣的特性,包括搜索相似序列 或者子序列,挖掘序列模式、周期性、趋势 和偏差。预测的目的是对未来的情况作出估 计。
主要功能
6. 其它功能 包括:偏差分析(Deviation Analysis)、孤 立点分析(Outlier Analysis)等。
只搜索有趣的模式: 数据挖掘算法的最优化问题
数据挖掘系统可以仅仅发现有趣的模式吗? 方法 首先生成所有模式然后过滤那些无趣的. 仅仅生成有趣的模式—挖掘查询优化
数据挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining) 业务理解 模型,最先在1996年被 提出,当前的白皮书 版本是1.0。 系统部署 目的是把数据挖掘的 过程标准化, 使数据挖 掘项目的实施速度更 快、成本更低、更可 靠并且更容易管理。
数据挖掘应用——市场分析和管理(2)
顾客分析
哪类顾客购买那种商品 (聚类分析或分类预测)
客户需求分析
确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客
提供概要信息
多维度的综合报告 统计概要信息 (数据的集中趋势和变化)
数据挖掘应用——公司分析和风险管理
财务计划
现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率, 趋势分析等等)
资源计划
总结和比较资源和花费
竞争
对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中
数据挖掘应用——欺诈行为检测和异常模式的发现
方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险
职业病人, 医生以及相关数据分析 不必要的或相关的测试
电信: 电话呼叫欺骗行为
电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析 该模型发现与期待标准的偏差
零售产业
分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的
反恐怖主义
其他应用
体育竞赛
美国NBA的29个球队中,有25个球队使用了IBM 分析 机构的数据挖掘工具,通过分析每个对手的数据(盖帽、 助攻、犯规等数据)来获得比赛时的对抗优势。
数据挖掘与其他科学的关系
数据库系统 统计学
机器学习
数据挖掘
可视化
算法
其他学科
实施数据挖掘的目的
不再是单纯为了研究,更主要的是为商业决 策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据 量非常大,而其中真正有价值的信息却很少, 因此需要从大量的数据中经过深层分析,获 得有利于商业运作、提高竞争力的信息,就 像从矿石中淘金一样,数据挖掘也由此而得 名。
主要功能
3. 分类与估值(Classification and Estimation) 分类指通过分析一个类别已知的数据集的 特征来建立一组模型,该模型可用以预测类别 未知的数据项的类别。该分类模型可以表现为 多种形式:分类规则(IF-THEN),决策树或 者数学公式,乃至神经网络。 估值与分类类似,只不过它要预测的不是 类别,而是一个连续的数值。
Pilot、Lockheed、 高级算法、多处理器计算机、 提供预测性 IBM、SGI、其他 海量数据库 的信息 初创公司
数据挖掘(Data Mining)的定义
数据挖掘是从大量的、不完全的、有噪声的、模糊 的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识 的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大 量的企业数据进行探索和分析,揭示隐藏的、未知 的或验证己知的规律性,并进一步将其模型化的有 效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析 和决策支持等。
数据挖源自文库的应用
数据分析和决策支持
市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交 叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分 析 欺骗检测和异常模式的监测 (孤立点)
其他的应用
文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析
数据挖掘和数据仓库
数据挖掘和OLAP
完全不同的工具,基于的技术也大相径庭 OLAP基于用户假设。
what happened〔查询和报表工具是告诉你数据库中都 有什么〕 what next〔 OLAP更进一步告诉你下一步会怎么样〕 what if〔如果我采取这样的措施又会怎么样〕
数据理解
数据准备 数据 建立模型
模型评估
业务理解(Business Understanding) 阶段
确定业务目标:分析项目的背景,从业务视点分析 项目的目标和需求,确定业务角度的成功标准; 项目可行性分析:分析拥有的资源,条件和限制, 风险估计,成本和效益估计; 确定数据挖掘目标:明确确定数据挖掘的目标和成 功标准,数据挖掘的目标和业务目标是不一样的, 前者指技术上的,例如生成一棵决策树等; 提出项目计划:对整个项目做一个计划,初步估计 用到的工具和技术。
主要功能
例2:对比移动电话费月消费额超出1000元的 客户群与移动电话费月消费额低于100元的 客户群。 利用数据挖掘可作出如下描述:移动电 话月消费额超出1000元的客户80%以上年龄 在35-50岁之间,且月收入5000元以上;而 移动电话月消费额低于100元的客户60%以 上要么年龄过大要么年龄过小,且月收入 2000元以下。
网络时代面临的信息问题:
信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。
“要学会抛弃信息”
数据爆炸但知识贫乏
数据库的容量已达上万亿水平(T)-- 1,000,000,000,000个字节 全球信息量以惊人的速度急剧增长--据估 计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数 据
主要功能
2. 关联分析(Association Analysis) 从一个项目集中发现关联规则,该规则 显示了给定数据集中经常一起出现的属性- 值条件元组。 例如:关联规则X=>Y所表达的含义是 满足X的数据库元组很可能满足Y。关联分 析在交易数据分析、支持定向市场、商品目 录设计和其他业务决策等方面有着广泛的应 用。
模式兴趣度的客观和主观度量
客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等 主观度量: 基于用户对数据的判断。比如:出乎意料的、 新颖的、可行动的等等
能够产生所有有趣模式并且仅产生有趣模 式吗?
找出所有有趣的模式: 数据挖掘算法的完全性问题
数据挖掘系统能够产生所有有趣的模式吗? 试探搜索 vs.穷举搜索 关联vs. 分类vs. 聚类
支持数据挖掘技术的基础
激发了数据挖掘的开发、应用和研究的兴趣的四个主要 技术理由: 超大规模数据库的出现,例如商业数据仓库和计算 机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能 力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。
从商业数据到商业信息的进化
数据挖掘本质上是一个归纳的过程,不是用于验证 某个假定的模式(模型)的正确性,而是在数据库 中自己寻找模型。 数据挖掘和OLAP有一定的互补性。
基本概念
数据:是指一个有关事实F的集合(如学生档案数据 库中有关学生基本情况的各条记录),用来描述事 物有关方面的信息。一般而言,这些数据都是准确 无误的。 信息: 是事物运动的状态和状态变化的方式。
天文学
JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮 助下发现了22颗新的恒星
网上冲浪
通过将数据挖掘算法应用于网络访问日志,从与市场相 关的网页中发现消费者的偏爱和行为, 分析网络行销的有 效性,改善网络站点组织。这就是新兴的WEB挖掘研究
数据挖掘与传统数据分析方法区别
知识
人们实践经验的结晶且为新的实践所证实的; 是关于事物运动的状态和状态变化的规律;是 对信息加工提炼所获得的抽象化产物。 知识的形式可能是模式、关联、变化、异常以 及其他有意义的结构。
主要功能
1. 概念/类别描述(Concept/Class Description) 概念/类别描述是指对数据集做一个简洁的总体性描 述并/或描述它与某一对照数据集的差别。 例1:我们收集移动电话费月消费额超出1000元的客 户资料,然后利用数据挖掘进行分析,获得这类客 户的总体性描述:35-50岁,有工作,月收入5000 元以上,拥有良好的信用度…;
数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的; 传统的数据分析方法基于假设驱动的:一般都是先给出 一个假设然后通过数据验证 数据挖掘在一定意义上是基于发现驱动的:模式都是通 过大量的搜索工作从数据中自动提取出来 。即数据挖 掘是要发现那些不能靠直觉发现的信息或知识,甚至是 违背直觉的信息或知识,挖掘出的信息越是出乎意料, 就可能越有价值。
随着数据挖掘技术的发展,可能还会继续出现 新的数据挖掘功能。
所有模式都是有趣的吗?
数据挖掘可能产生数以千计的模式或规则,但并不 是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量
一个模式是有趣的,如果(1) 它易于被人理解 ;(2) 在某种程度上,对于新的或测试数据是有效的;(3)具 有潜在效用;(4)新颖的;(5)符合用户确信的某种 假设
进化阶段 数据搜集 (60年代) 数据访问 (80年代) 商业问题 “过去五年中我的总 收入是多少?” 支持技术 产品厂家 产品特点 提供历史性 的、静态的 数据信息 在记录级提 供历史性、 动态数据信 息
计算机、磁带和磁盘
IBM,CDC
“在新英格兰的分部 去年三月的销售额 是多少?” “ 在新英格兰的分部 数据仓库; 去年三月的销售额 决策支持 是多少?波士顿据 (90年代) 此可得出什么结 论?” 数据挖掘 “下个月波士顿的销 (正在流 售会怎么样?为什 行) 么?”
主要功能
4. 聚类分析(Clustering Analysis) 聚类分析又称为“同质分组”或者“无 监督的分类”,指把一组数据分成不同的 “簇”,每簇中的数据相似而不同簇间的数 据则距离较远。相似性可以由用户或者专家 定义的距离函数加以度量。 好的聚类方法应保证不同类间数据的相 似性尽可能地小,而类内数据的相似性尽可 能地大。
数据挖掘应用——市场分析和管理(1)
数据从那里来?
信用卡交易, 会员卡, 商家的优惠卷, 消费者投 诉电话, 公众生活方式研究
目标市场
构建一系列的“客户群模型”,这些顾客具有 相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式
交叉市场分析
货物销售之间的相互联系和相关性,以及基于 这种联系上的预测
关系数据库(RDBMS), 结构化查询语言(SQL)、 Sybase、Informix、IBM 联机分析处理(OLAP)、 多维数据库、数据仓库
Oracle、Sybase、 Informix、IBM、 Microsoft
在各种层次 Pilot、Comshare、 上提供回溯 Arbor、Cognos、 的、动态的 Microstrategy 数据信息