第2章数据挖掘建模方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


填补空缺的数据值。例如忽略有空缺值的记录;人工填写空缺值;使 用一个全局变量填写空缺值;使用属性的均值填写空缺值。 清理噪声数据。对于噪声数据有以下几种处理方法:一是分箱,二是 聚类方法,通过聚类发现孤立点。三是计算机与人工相结合的方法, 四是回归分析,建立回归方程。 解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、 含义不一致。可以通过对数据的统一调整进行解决。
3/27
2019/3/9
商业数据挖掘案例
某一家银行存在一个业务难题,他们的特别商业产品——家庭抵押贷款额度,不能吸引好的客户,家庭抵押贷 款业务量低。为此,美国消费者资产协会决定与Hyperparallel 公司合作,采取数据挖掘方法来解决这个问题。 根据CRISP-DM建模体系,第一阶段是业务理解。从这个案例来看,主要的业务问题是解决家庭抵押贷款的业 务量。从业务角度上看,是否存在一些客户群体对家庭抵押贷款这项业务感兴趣,而这些客户群体又有什么共同的 特征,客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见,他们认为可能使用家 庭贷款业务的人群有两种:一种是有孩子上大学的家长,想通过家庭抵押贷款支付学费,另一种是高收入但收入不 稳定的人,想通过家庭抵押贷款事、使其收入削峰填谷。 经过上述的业务理解后,需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来,美国银行一直 将数百万的零售客户数据存储在一个巨大的关系数据库中。关系数据库中的数据共有42个字段,每个记录保存了客 户的详细信息。收集到原始数据后,需要根据问题识别数据有用的特征,检验数据的质量,对缺失的字段、数值型 变量的取值范围等质量问题进行检验并作处理。 然后,对这些数据进行筛选,转换,调整,规范化后,输入到公司数据仓库中。美国银行利用这个系统,能参 透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征,然后采用Hyperparallel 公司的数据挖掘工具进行分析。 经过数据挖掘工具的决策树功能,按照现有银行划分客户的规则,将客户分成两类,即可能或者不可能对提供 家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据,决策树最终获得判定不同类型客户 之间差别的规则。一旦发现规则,利用得到的模型可以给每个潜在客户记录增加一个属性,即好的潜在客户标志, 就是由数据挖掘模型生成的。接着使用模式的查找工具,确定客户什么时候最有可能需要这种贷款。最后,使用聚 类工具将具有相似属性的客户分成不同的组。在某一点上,数据挖掘工具发现了14个客户簇,其中很多簇似乎没有 什么特别的发现。但是,有一个簇具有两个令人费解的特点:一是这个簇的39%的人不同时拥有企业和个人账户, 二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者,上述簇中的客户 有可能使用家庭抵押贷款来从事商业活动。 利用数据挖掘的结果,美国消费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调 查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点,例如响应者并不能代表全部的人口 ,有些客户并非诚实对待调查等等,但是与现有客户和以前的客户进行面谈的时候,也可以深入了解其他方式无法 得到的情况。 对由数据挖掘产生的结果进行评估之后,美国银行制定部署运用方案,并且按照方案采取了相应的措施,最终 ,家庭抵押贷款的响应率从0.7%上升到了7%。
(1) 数据收集 (2) 数据描述 (3) 数据探索 (4) 数据质量检测
6/27
2019/3/9
2.3 数据理解 (2)
(1) 数据收集

在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息, 哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择 的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖 掘的目标。
(2) 数据描述

描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或 者“表面的”特征。例如从商业的角度理解每个变量及其值的含义, 变量的含义是否始终一致,变量是否与具体的数据挖掘目标相关联等。
7/27
2019/3/9
2.3 数据理解 (3)
(3) 数据探索


探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思 考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐 明数据挖掘的目标。 例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数 据后,根据数据的特征,选择各种可能相关的业务进行挖掘,对于显 而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大 部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业 务之间的关联。
(1) 数据筛选 (2) 数据清理 (3) 数据构建 (4) 数据整理合并 (5) 规范化数据 (6) 准备建模数据集 (7) 选择建模技术和训练模型
9/27
2019/3/9
2.4 数据准备 (2)
(1) 数据筛选 数据筛选的任务是确定数据挖掘分析过程中所必须的数据, 即选择有用的特征和记录。
2019/3/9 资料来源: ) Michael J.A. Berry (美) Gordon S.Linoff 著. 数据挖掘技术:市场营销、销售与客户关系管理领域应用. 4/27 (美 机械工业出版社.2006.7
2.2 业务理解

业务理解是数据挖掘的第一个阶段,从业务的角度了解项 目的要求和最终目的是什么,并将这些目的与数据挖掘的 定义以及结果结合起来 。具体任务包括:
(1) 业务梳理 (2) 业务描述 (3) 业务特征研究 (4) 业务关联分析
5/27
2019/3/9
2.3 数据理解 (1)

数据理解阶段是从收集数据开始,通过一些活动的处理, 目的是熟悉数据,识别数据的质量问题,首次发现数据的 内部属性,或是探测引起兴趣的自己去形成隐含信息的假 设。其任务包括:
商务数据挖掘与应用案例分析
0/27
2019/3/9
第2章 数据挖掘建模方法
2.1 概述>> 2.2 业务理解>>
2.3 数据理解>>
2.4 数据准备>>
2.5 建模>>
2.6 评估>>
2.7 部署>>
1/27
2019/3/9
2.1 概述 (1)

成功的数据挖掘是让数据有商业价值,数据挖掘分析师需 要知道什么对商业有价值,并且知道为了获得巨大收益如 何整理数据。为了成功运用数据挖掘,对数据挖掘技术层 面的理解至关重要,尤其是应该了解如何将数据变成有用 信息的过程。 本章主要介绍跨行业标准流程CRISP-DM(crossindustry standard process for data mining)。该模型 将一个数据挖掘项目的生命周期分为业务理解、数据理解、 数据准备、建模、评估和部署等6个阶段,这个流程为我们 提供了一个数据挖掘所需步骤的完整概括。

2/27
2019/3/9
2.1 概述 (2)


业务理解(Business Understanding) 数据理解(Data Understanding) 数据准备(Data Preparation) 建模(Modeling) 评估(Evaluation) 部署(Deployment)

为了评估模型,一般将建模数据集分成三个部分,即训练集、测试集 和评估集。将数据的训练集作为最初用于建立模型的数据,用测试集 和评估集来精化模型和评估模型。
14/27
2019/3/9
2.5 建模 (1)
2.5.1 成功建立预测模型的注意要点 2.5.2 如何建立有效的预测模型
15/27
2019/3/9



最大最小规格化 z-score规格化 小数定标规格化
13/27
2019/3/9
2.4 数据准备 (6)
(6) 准备建模数据集

数据准备是在数据建模前对数据的最后一步进行处理,对数据进行上 述处理后,还不能直接用于数据建模,还需要考虑到数据的稀疏程度。 通常,对于稀疏的数据,最好选用15%~30%的比例来建模,例如: 在建立欺诈检测模型时,欺诈记录的数据占比例很小。如果直接用这 样的数据进行建模,那么,成功预测没有欺诈的可能性将会很高。但 是这样得到的模型用处不大甚至完全无用。

在选择数据的时候,首先要考虑的问题是数据要符合解决企业问题的 需要。 再者,由于用于建模的数据应尽可能地完整,数据量尽可能多。 当开发预测模型时,资料中也应该包括想要的输出。
10/27
2019/3/9
2.4 数据准备 (3)
(2) 数据清洗 数据挖掘过程是否成功,得出的结果模型是否可靠,取决 于数据质量的好坏。清理数据的任务恰恰是清理数据中包 含的噪声和与数据挖掘主题明显无关的数据,从而提高数 据的质量。清理数据通常包括:
11/27
2019/3/9
2.4 数据准备 (4)
(3) 数据构建 数据构建包括建设性的数据准备工作,例如属性构造,多 维数据组织(聚集),数据泛化处理。


属性构造是指构造新的属性并添加到属性集中,以帮助提高数据挖掘 的过程。 多维数据组织(聚集)是指对数据进行汇总和聚集,采用切片、旋转等 操作将原始数据按照多维立体形式组织成为不同层次、不同粒度、不 同维度的聚集。 数据泛化处理是指使用高层次的概念替换低层次的概念。例如短信业 务替换各种不同种类的短信业务,使用国家替换城市。
2.5 建模 (2)



一个模型的好坏依赖于所选择的算法和使用的工具。一些 工具可以生成许多不同的模型,而且可以自动从中选出最 好的模型。 可以选择多种不同的数据挖掘技术,每一种技术都有它的 优缺点。实际应用时,需要根据数据挖掘的目的以及数据 的特点选择数据挖掘的算法。 数据挖掘中的建模是针对问题的特定对象,为了特定的数 据挖掘目的,做出假设,运用适当的数据挖掘工具和其他 科学工具建立模型,利用模型解释特定的现象和预测对象 的未来状况。
17/27
2019/3/9
2.5.1 成功建立预测模型的注意要点 (2)
(2)模型的使用有效期 在建立预测模型的时候,还需要考虑模型的使用有效期问 题,即模型使用有效期和模型预测有效期。


模型使用有效期是指在业务环境、技术手段、客户基础等相对稳定的 条件下,可以继续使用之前建立的预测模型。但是随着时间的推移, 这些条件可能会发生变化,因此,必须用新的数据构建新的模型,而 不能用之前建立的模型进行预测。 模型预测有效期是指预测结果应该在特定的时间内才有效。例如电信 行业中预测某个特定季度或者特定月份的客户流失率。在这种情况下, 需要对不同季度或者月份使用不同的预测。
12/27
2019/3/9
2.4 数据准备 (5)
(4) 数据整合 数据整合的主要任务是将来自多数据源(例如数据库、文件 等)的相关数据组合到一起,即把不同来源、格式、特点性 质的数据在逻辑上或者物理上有机地集合在一起,使之更 加有利于数据挖掘过程的实现。 (5) 数据规范化 规格化数据就是将有关属性数据按比例缩放,使之落入一 个特定的小范围内,以消除数值型数据因大小不一而造成 的数据挖掘结果的误差。常用的规格化数据方法有三种:
16/27
2019/3/9
2.5.1 成功建立预测模型的注意要点 (1)
对于预测模型而言,当预言与结果相一致时,才能说明预言 是有效的然而,要成功建立预测模型,需要注意以下三点: (1)预测模型的时间范围
Hale Waihona Puke Baidu
在建立模型的过程中,首先需要训练模型,即用历史数据构建模型, 进行预测,然后将模型应用于新的数据中从而生成结果,这个过程称 为得分,它是用最新的数据来预测未来的结果。具体如图所示:
(4) 数据质量检测

检验数据质量,列举有关问题。例如数据是否完整、正确,是否存在 缺失值,数值型变量的范围是否落在允许的范围内,变量的含义与变 量值是否一致等质量问题。
8/27
2019/3/9
2.4 数据准备 (1)


数据准备阶段的工作是对可用的原始数据进行一系列的组 织以及清洗等预处理,使之达到建模需求,而这些数据将 是模型工具的输入值。 数据准备阶段的任务有可能执行多次,并且没有任何规定 的顺序。这个阶段其任务包括:
18/27
2019/3/9
相关文档
最新文档