商业分析第7章 商业数据挖掘方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
坏的标准,用信息增益度量,信息增益值越大,不确定性越小。因
此,算法在每个非叶子节点选择信息增益最大的属性作为分裂属性。
No Image
n=16 n1=4
I(16,4)=(E((4年/1齡6))*=l(o6g/21(64)/*1I6()6+,(11)2+/(1160)/*1l6o)g*2I((112/0,136))=)=00..78914163 Gain(年齡)=I(16,4)-E(年齡)=0.0167
Gain(年齡)=0.0167 Gain(性別)=0.0972 Gain(家庭所得)=0.0177
机器学 习
数据库 技术
数理统 计
从技术角度看:数据挖掘(Data Mining)就是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。
从商业角度看:按企业既定业务目标,对大量的企业数据进 行探索和分析,揭示隐藏的、未知的或验证已知的规律性, 并进一步将其模型化的先进有效的方法。数据挖掘是从海 量数据中提取隐含在其中的有用信息和知识的过程。它可 以帮助企业对数据进行微观、中观乃至宏观的统计、分析、 综合和推理,从而利用已有数据预测未来,帮助企业赢得 竞争优势。
因此,决策树可以分为两类:分类决策树,简称分 类树,实现对分类型输出变量的分类;回归决策树, 简称回归树,完成对数值型输出变量的预测。
决策树的两大核心问题:
决策树的生长:在样本数据中选择哪一个属性作为根节点, 然后如何分支,如何选择内部节点,直到生长出树叶,即 到达叶节点,这一系列过程可称为决策树的分枝准则,即 具体算法;
给出一个决策树的基本结构。它的形状是一棵倒置的
树,包括节点和分支。有三种类型的节点:父节点、
内部节点和叶节点。
年龄阶段
父节点
青年
中年
老年
分支
是否是学生

信用等级
内部节点








叶节点
图7-2. 决策树示意图
决策树(Decision Tree)是一种以实例为基础的归纳学
习算法,是一种从无次序、无规则的训练样本集中推
--商业数据的分析、挖掘和应用 华东师范大学出版社
数据挖掘概论 决策树 关联规则 聚类分析
如何从巨量、复杂的数据 中获取有用的信息,成为 了信息技术研究领域的热 门课题。在这样的背景下, 数据挖掘技术诞生并成为 了近年来的研究热点。机 器学习、数据库技术和数 理统计是数据挖掘的三个 技术支柱。
……
数据挖掘应用场景
数据挖掘在商业分析领域的一些应用如下:
金融领域 营销领域 电子政务 电信领域 工业生产 生物和医学
……
数据挖掘应用场景——金融领域
客户信用等级评估 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析
……
定义 分类与作用 常用算法 剪枝
理解什么是决策树,决策树有什么作用之前,我们先
数据挖掘任务主要有很多种,常见的有监督学习(或称为 分类学习)、无监督学习(或称为聚类分析)、关联规则 挖掘、预测、时序挖掘和偏差分析等等。 分类学习 聚类分析 关联规则 预测 时序模式 偏差分析
一般来说,数据挖掘需要经历以下过程:确定挖掘对象
(理解研究的业务领域)、收集数据(理解业务领域中的
数据属性)、数据预处理(对获得的数据进行清洗等各种
决策树的剪枝:防止决策树生长过于茂盛,无法适应实际 应用的需要。
决策树常用算法:
基于信息论的方法:
ID系列算法 C4.5 C5.0
最小GINI指标的方法:
CART SLIQ SPRINT 决策树剪枝方法:
预修剪(Pre-Pruning) 后修剪(Post-Pruning)
决策树常用算法——ID3算法
数据挖掘工具 目前国际上广泛应用的数据挖掘工具有很多 SAS Enterprise Miner SPSS公司的Clementine(被IBM公司收购后改名为Modeler) SQL Sever中的数据挖掘模块 Waikato大学开发的Weka平台 IBM公司的Intelligent Miner 开源软件R语言
处理)、数据挖掘(用数据挖掘算法和模型来进行数据挖
掘)和信息解释(对得到的数据挖掘模型进行评估,评估
有效后再在实际环境中使用),在数据挖掘过程中如能配
以可视化的方法,则可大幅度提高效果。
确定挖掘对象
业务理解
பைடு நூலகம்
数据收集
属性选择
数据预处理
数据挖掘
去除异常和 数据转换
算法和模型
可视化展示
信息解释
评估和运用
图7-1. 数据挖掘过程
决策树常用算法——ID3算法
信息熵与信息增益
信息论之父申农(C. E. Shannonm)把信息中排除了冗余后的平均
信息量称为“信息熵”,并给出了计算信息熵的数学表达式,他把信 息熵定义为离散随机事件的出现概率。总而言之,信息熵的基本作 用就是消除人们对事物的不确定性。
ID3算法根据信息论,采用划分后样本集的不确定性作为衡量划分好
1986年,J.R.Quinlan提出了ID3(Iterative Dichotomizer)算法。该
算法是以信息论为基础,运用信息熵理论,采用自顶向下的贪心搜索 算法。其核心思想是在决策树中各级节点上选择分裂属性。用信息增 益作为属性选择的标准,使每个非叶子节点测试时,能获得关于被测
试例子最大的类别信息。使用该属性将训练样本集分成子集后,系统 的信息熵值最小。
理出决策树表示形式的分类规则的方法,它提供了一
种展示类似在什么条件下会得到什么值这类规则的方
法。
工作过程:
训练数 据集
决策树 分类算

评估模 式
测试集
预测
类别未 知的数
据集
预测结 果
1、创建决策树过程
2、使用决策树模型预测过程
图7-3. 决策树工作过程
决策树主要应用于分类预测。分类预测的结果有定 性和定量两种。例如,预测天气,定性有下雨或不 下雨;定量则是下多少雨,具体的数值。在实际应 用中,我们将定性的分类预测称为分类,用来确定 类别属性;定量的分类预测成为预测,用来预测具 体的数值。分类是一种重要的数据挖掘技术。分类 的目的是根据数据集的特点构造一个分类函数或分 类模型(也常常称作分类器),该模型能把未知类 别的样本映射到给定类别中的某一个。
相关文档
最新文档