客户关系管理第六章v1精品PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 数据挖掘处理技术 -- 数理统计 -- 人工智能 -- 机器学习
数据挖掘的演化
• 机器学习 • 数据库中的知识发现 • 数据挖掘
6.1.2 数据挖掘的定义
• SAS研究所(1997):“在大量相关数据基础 之上进行数据探索和建立相关模型的先进方 法”。
• Bhavani(1999):“使用模式识别技术、统计 和数学技术,在大量的数据中发现有意义的新 关系、模式和趋势的过程”。
说明: 了解各群集中,各变量的分布比例,以图中 为例,群集2中,距离为”0-1 Miles”的有 0.4%、 ”1-2 Miles”的有25.7%、 ”2-5 Miles”的有13.6%、 ”5-10 Miles”的有 32%、 ”10+Miles”的有28.3%
• 通过聚类,数据库中的记录可被划分为一系列 有意义的子集。聚类增强了人们对客观现实的 认识,是进行概念描述和偏差分析的先决条件。
聚类分析应用
• 市场销售: 帮助市场人员发现客户中的不同群体,然后用这 些知识来开展一个目标明确的市场计划;
• 土地使用: 在一个陆地观察数据库中标识那些土地使用相似 的地区;
数据挖掘与传统分析方法的区别
• 数据挖掘与传统的数据分析(如查询、报表、联 机应用分析)的本质区别是数据挖掘是在没有明 确假设的前提下去挖掘信息、发现知识.。数据 挖掘所得到的信息应具有先未知,有效和可实用 三个特征.
• 先前未知的信息是指该信息是预先未曾预料到的, 既数据挖掘是要发现那些不能靠直觉发现的信息 或知识,甚至是违背直觉的信息或知识,挖掘出 的信息越是出乎意料,就可能越有价值。在商业 应用中最典型的例子就是一家连锁店通过数据挖 掘发现了小孩尿布和啤酒之间有着惊人的联系
• 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿 成本的客户;
• 城市规划: 根据类型、价格、地理位置等来划分不同类型的 住宅;
• 地震研究: 根据地质断层的特点把已观察到的地震中心分成 不同的类;
聚类分析的评判
• 一个好的聚类方法要能产生高质量的聚类结果— —簇,这些簇要具备以下两个特点:
• Hand et al(2000):“数据挖掘就是在大型数 据库中寻找有意义、有价值信息的过程”。
数据挖掘的定义
• 技术角度的含义 • 商业角度的含义 • 与传统方法的区别
数据挖掘的技术上的定义
• 数据挖掘(Data Mining)就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。
• 这个定义包括好几层含义(1)数据源必须是真 实的、大量的、含噪声的;(2)发现的是用户 感兴趣的知识;(3)发现的知识要可接受、可 理解、可运用;(4)并不要求发现放之四海皆 准的知识,仅支持特定的发现问题。
数据挖掘的商业角度的定义
• 按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知 的规律性,并进一步将其模型化的先进有效的 方法。
决策树
• 假设您是一个销售一种新的银行服务的直邮计 划研究的负责人。为最大程度地获益,您希望 确定基于前次促销活动的家庭细分最有可能响 应相似的促销活动。通常这可以通过查找最能 把响应前次促销的家庭和没有响应的家庭区分 开的人口统计信息变量的组合来实现。
• 决策树为您提供诸如谁会最好地响应新的促销 等重要线索,并通过只邮寄给最有可能响应的 人来最大程度地获得直邮效益,提高整体响应 率,并极有希望同时增加销售。
–高的簇内相似性 –低的簇间相似性
• 聚类结果的好坏取决于该聚类方法采用的相似性 评估方法以及该方法的具体实现;
• 聚类方法的好坏还取决与该方法是能发现某些还 是所有的隐含模式;
聚集算法
在群集3中 ”0-1 Miles” 的比例最高,有74%
在群集2中,则 无”0-1 Miles” 的记录
聚集算法
第6章 CRM与数据挖掘
6.1.1 数据挖掘的产生
• 数据爆炸但知识贫乏 • 支持数据挖掘技术的基础
数据爆炸但知识贫乏
数据库越来越大
数据挖掘
可怕的数据
有价值的知识
数据爆炸但知识贫乏
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府
POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
Hale Waihona Puke Baidu
决策树图
Decision Tree 决策树
决策树应用
• 决策树也是分析消耗(流线性生产)、发 现交叉销售机会、进行促销、信用风险 或破产分析和发觉欺诈行为的得力工具。
聚类分析
• 聚类如同通常所说的“物以类聚”,是把一组 个体按照相似性归成若干类别。
• 它的目的是使属于同一类别的个体之间的距离 尽可能的小,而不同类别上的个体间的距离尽 可能的大。它反映同类事物共同性质的特征型 知识和不同事物之间的差异性质的特征型知识。
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
数据爆炸,知识贫乏
支持数据挖掘技术的基础
• 更大,更便宜的存储器 -- 磁盘密度以Moore’s law增长 -- 存储器价格飞快
•下降更快,更便宜的信息处理器 -- 分析更多的数据 -- 适应更多复杂的模型 -- 引起更多查询技术 -- 激起更强的可视化技术
决策树分类
• 所谓决策树就是一个类似流程图的树型 结构,其中树的每个内部结点代表对一 个属性(取值)的测试,其分支就代表 测试的每个结果;而树的每个叶结点就 代表一个类别。树的最高层结点就是根 结点。
决策树
• 决策树把数据归入可能对一个目标变量 有不同效果的规则组。例如,我们希望 发现可能会对直邮有反应的个人特点。 这些特点可以解释为一组规则。
决策树建立
• 决策树中最上面的节点称为根节点,是整个决策树的 开始。本例把响应客户作为根节点。可以看到所有收 到直邮信件的人中有7%有响应。
• 然后根据记录字段的不同取值建立树的分支, 如分为 有住房和无住房两组,则15%的租户有响应,而房主则 只有5%。
• 还可以在每个分支子集中重复建立下层结点和分支。 我们可以继续分组来发现最有可能响应的组群。这一 组群可以表示为一个规则,如“如果收件人是租户, 有较高的家庭收入,没有储蓄存款账户,那么他有45% 的响应概率”。简单地说,有这些特点的组群中有45% 可能会对直邮有响应。
相关文档
最新文档