数据挖掘简单概括

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 可以用来预报某些未知的或丢失的数字值
– 第6章将详细讨论分类和预测
数据挖掘的主要方法
• 聚类分析
– 与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一 般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产 生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的 原则进行聚类或分来自百度文库。即,对象的聚类这样形成,使得在一个聚类中 的对象具有很高的相似性,而与其它聚类中的对象很不相似。
• 职业病人, 医生以及相关数据分析 • 不必要的或相关的测试
– 电信: 电话呼叫欺骗行为
• 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分 析该模型发现与期待标准的偏差
– 零售产业
• 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成 的
– 反恐怖主义
其他应用
• 体育竞赛
– 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据 挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据) 来获得比赛时的对抗优势。
– 风险分析和管理
• 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析
– 欺骗检测和异常模式的监测 (孤立点)
• 其他的应用
– 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 – 流数据挖掘 – DNA 和生物数据分析
数据挖掘应用——市场分析和管理(1)
• 数据从那里来?
– 信用卡交易, 会员卡, 商家的优惠卷, 消费者投 诉电话, 公众生活方式研究
– 关联规则挖掘在第6章详细讨论。
数据挖掘的主要方法
• 分类和预测
– 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型 标志未知的对象类。
• 比如:按气候将国家分类,按汽油消耗定额将汽车分类
– 导出模型的表示: 决策树、IF-THEN规则、神经网络
– 预测(prediction)用来预测空缺的或不知道的数值数据值,而不 是类标号,在本书中,预测主要是指数值预测。
• 第1章 引言 • 第2章 数据预处理 • 第3章 数据仓库与OLAP技术概述 • 第4章 数据立方体计算与数据泛化 • 第5章 挖掘频繁模式、关联和相关 • 第6章 分类和预测 • 第7章 聚类分析
• 第8章 挖掘流、时间序列和序列数据 • 第9章 图挖掘、社会网络分析和多关系数据挖掘 • 第10章 挖掘对象、空间、多媒体、文本和Web数据 • 第11章 数据挖掘的应用和发展趋势
• 天文学
– JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现 了22颗新的恒星
• 网上冲浪
– 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页 中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站 点组织。这就是新兴的WEB挖掘研究
数据挖掘技术分类
数据挖掘
验证驱动挖掘
• 目标市场
– 构建一系列的“客户群模型”,这些顾客具有 相同特征: 兴趣爱好, 收入水平, 消费习惯,等等
– 确定顾客的购买模式
• 交叉市场分析
– 货物销售之间的相互联系和相关性,以及基于 这种联系上的预测
数据挖掘应用——市场分析和管理(2)
• 顾客分析
– 哪类顾客购买那种商品 (聚类分析或分类预测)
– 不一致: 编码或名字存在差异
• 例, Age=“42” Birthday=“03/07/1997” • 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” • 例, 重复记录间的差异
– 总结和比较资源和花费
• 竞争
– 对竞争者和市场趋势的监控 – 将顾客按等级分组和基于等级的定价过程 – 将定价策略应用于竞争更激烈的市场中
数据挖掘应用——欺诈行为检测和异常模式的发现
• 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 • 应用: 卫生保健、零售业、信用卡服务、电信等
– 汽车保险: 相撞事件的分析 – 洗钱: 发现可疑的货币交易行为 – 医疗保险
– 例1.6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的规则
age(X, “20···29”) ^ income(X, “20···29K”) buys(X, “CD_player”)
[support = 2%, confidence = 60%]
– 其中,X是变量,代表顾客。该规则是说,所研究的AllElectronics顾客2%(支持 度)在20-29岁,年收入20-29K,并且在AllElectronics购买CD机。这个年龄和收 入组的顾客购买CD机的可能性有60%(置信度或可信性)。
发现驱动挖掘
SQL 查询工具
SQL生成器 OLAP
描述
预测
可视化 聚类 关联规则 顺序关联 汇总描述
分类
统计回归
时间序列
决策树 神经网路
数据挖掘的主要方法
• 关联分析
– 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起 出现的条件。
– 广泛的用于购物篮或事务数据分析。
– 关联规则是形如X Y,即”A1∧...∧Am B1∧...∧Bn”的规则;其 中,Ai(i∈{1,...,m}),Bj(j∈{1,...,n})是属性-值对。关联规则解释为“满足X中条件的数 据库元组多半也满足Y中条件”。
• 客户需求分析
– 确定适合不同顾客的最佳商品 – 预测何种因素能够吸引新顾客
• 提供概要信息
– 多维度的综合报告 – 统计概要信息 (数据的集中趋势和变化)
数据挖掘应用——公司分析和风险管理
• 财务计划
– 现金流转分析和预测 – 交叉区域分析和时间序列分析(财务资金比率,
趋势分析等等)
• 资源计划
数据仓库
• 数据仓库是一个从多个数据源收集的信息存储,存放在一 个一致的模式下,并通常驻留在单个站点。数据仓库通过 数据清理、数据变换、数据集成、数据装入和定期数据刷 新构造。
数据挖掘的应用
• 数据分析和决策支持
– 市场分析和管理
• 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分 割
关于一个城市内顾客的2-D图, 显示了3个聚类,每个聚类的 “中心”用“+”标记
2.1 为什么要预处理数据?
• 现实世界中的数据是脏的
– 不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据
• 例, occupation=“”
– 噪音: 包含错误或孤立点
• 例, Salary=“-10”
相关文档
最新文档