商务数据挖掘与应用案例分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


2.1 概述 (2)


业务理解(Business Understanding) 数据理解(Data Understanding) 数据准备(Data Preparation) 建模(Modeling) 评估(Evaluation) 部署(Deployment)
商业数据挖掘案例
2.3 数据理解 (2)
(1) 数据收集

在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息, 哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择 的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖 掘的目标。
(2) 数据描述

描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或 者“表面的”特征。例如从商业的角度理解每个变量及其值的含义, 变量的含义是否始终一致,变量是否与具体的数据挖掘目标相关联等。
(1) 业务梳理 (2) 业务描述 (3) 业务特征研究 (4) 业务关联分析
2.3 数据理解 (1)

数据理解阶段是从收集数据开始,通过一些活动的处理, 目的是熟悉数据,识别数据的质量问题,首次发现数据的 内部属性,或是探测引起兴趣的自己去形成隐含信息的假 设。其任务包括:
(1) 数据收集 (2) 数据描述 (3) 数据探索 (4) 数据质量检测
第2章 数据挖掘建模方法
2.1 概述>> 2.2 业务理解>>
2.3 数据理解>>
2.4 数据准备>>
2.5 建模>>
2.6 评估>>2.7 部署>>
2.1 概述 (1)

成功的数据挖掘是让数据有商业价值,数据挖掘分析师需 要知道什么对商业有价值,并且知道为了获得巨大收益如 何整理数据。为了成功运用数据挖掘,对数据挖掘技术层 面的理解至关重要,尤其是应该了解如何将数据变成有用 信息的过程。 本章主要介绍跨行业标准流程CRISP-DM(crossindustry standard process for data mining)。该模型 将一个数据挖掘项目的生命周期分为业务理解、数据理解、 数据准备、建模、评估和部署等6个阶段,这个流程为我们 提供了一个数据挖掘所需步骤的完整概括。
2.3 数据理解 (3)
(3) 数据探索


探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思 考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐 明数据挖掘的目标。 例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数 据后,根据数据的特征,选择各种可能相关的业务进行挖掘,对于显 而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大 部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业 务之间的关联。
资料来源:(美) Michael J.A. Berry (美) Gordon S.Linoff 著. 数据挖掘技术:市场营销、销售与客户关系管理领域应用. 机械工业出版社.2006.7
2.2 业务理解

业务理解是数据挖掘的第一个阶段,从业务的角度了解项 目的要求和最终目的是什么,并将这些目的与数据挖掘的 定义以及结果结合起来 。具体任务包括:
某一家银行存在一个业务难题,他们的特别商业产品——家庭抵押贷款额度,不能吸引好的客户,家庭抵押贷 款业务量低。为此,美国消费者资产协会决定与Hyperparallel 公司合作,采取数据挖掘方法来解决这个问题。 根据CRISP-DM建模体系,第一阶段是业务理解。从这个案例来看,主要的业务问题是解决家庭抵押贷款的业 务量。从业务角度上看,是否存在一些客户群体对家庭抵押贷款这项业务感兴趣,而这些客户群体又有什么共同的 特征,客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见,他们认为可能使用家 庭贷款业务的人群有两种:一种是有孩子上大学的家长,想通过家庭抵押贷款支付学费,另一种是高收入但收入不 稳定的人,想通过家庭抵押贷款事、使其收入削峰填谷。 经过上述的业务理解后,需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来,美国银行一直 将数百万的零售客户数据存储在一个巨大的关系数据库中。关系数据库中的数据共有42个字段,每个记录保存了客 户的详细信息。收集到原始数据后,需要根据问题识别数据有用的特征,检验数据的质量,对缺失的字段、数值型 变量的取值范围等质量问题进行检验并作处理。 然后,对这些数据进行筛选,转换,调整,规范化后,输入到公司数据仓库中。美国银行利用这个系统,能参 透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征,然后采用Hyperparallel 公司的数据挖掘工具进行分析。 经过数据挖掘工具的决策树功能,按照现有银行划分客户的规则,将客户分成两类,即可能或者不可能对提供 家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据,决策树最终获得判定不同类型客户 之间差别的规则。一旦发现规则,利用得到的模型可以给每个潜在客户记录增加一个属性,即好的潜在客户标志, 就是由数据挖掘模型生成的。接着使用模式的查找工具,确定客户什么时候最有可能需要这种贷款。最后,使用聚 类工具将具有相似属性的客户分成不同的组。在某一点上,数据挖掘工具发现了14个客户簇,其中很多簇似乎没有 什么特别的发现。但是,有一个簇具有两个令人费解的特点:一是这个簇的39%的人不同时拥有企业和个人账户, 二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者,上述簇中的客户 有可能使用家庭抵押贷款来从事商业活动。 利用数据挖掘的结果,美国消费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调 查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点,例如响应者并不能代表全部的人口 ,有些客户并非诚实对待调查等等,但是与现有客户和以前的客户进行面谈的时候,也可以深入了解其他方式无法 得到的情况。 对由数据挖掘产生的结果进行评估之后,美国银行制定部署运用方案,并且按照方案采取了相应的措施,最终 ,家庭抵押贷款的响应率从0.7%上升到了7%。
相关文档
最新文档