商务智能课程论文2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
引言 (2)
1.决策树演算法(Decision Tree) 简介 (2)
1.1决策树演算法的原理 (2)
1.2决策树演算法的选择 (3)
1.3 CHAID算法简介 (3)
2.自行车销售数据栏位和特征分析 (4)
3.建立决策树模型串流 (5)
3.1读取数据 (5)
3.2 数据类型定义 (6)
3.3决策树节点设定 (6)
4.生成模型与修正模型 (8)
5.模型分析 (12)
基于SPSS Modeler的自行车销售预测分析引言
随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用IBM SPSS Modeler进行实作,介绍决策树(Decision tree) 演算法于零售领域的应用实例。IBM SPSS Modeler包含多种决策树模型,包括C5.0、C&R Tree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据(某公司自行车销售数据) 进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。本文所用分析工具为IBM SPSS Modeler 17 试用版,所建立模型需IBM SPSS Modeler 15及以上版本才可正常查看。
1.决策树演算法 (Decision Tree) 简介
1.1决策树演算法的原理
决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。
一个决策树的架构,是由三个部分所组成:叶节点(Leaf Node)、决策节点(Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。决策树演算法的比较
决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及C&R Tree 四种。
1.)C5.0
由C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准(Information Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段(Target) 测量级别,不适用于连续类型(Continuous) 的测量级别。而输入字段的数据型态则适用连续类型(Continuous) 的测量级别。
2.)CHAID (Chi-Square Automatic Interaction Detector)
此演算法和前述的C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定(Chi-square F test) 来进行分支,通过卡方检定来计算节点中的P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段(T arget) 的测量级别可适用于连续类型(Continuous) 的测量级别,但在输入字段则只适用分类类型(Categorical) 的测量级别。
3.)QUEST (Quick Unbiased Efficient Statistical Tree)
此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟C5.0 一样,目标字段(T arget) 测量级别,不适用于连续类型(Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型
(Continuous) 的测量级别。
4.)C&R Tree (Classification and Regression Tree)
又称为CART,构建决策树的原理是使用Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数(Target) 以及输入字段的测量级别均适用连续类型(Continuous) 的测量级别做分析。
1.2决策树演算法的选择
在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。
使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分仅针对CHAID算法进行简单的介绍和应用展示。
1.3 CHAID算法简介
CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。“卡方”是在分类模型中应用的一个统计量;“交互作用”是指进行成功预测所需要考虑的各变量之间的相互关系;“检验”是研究者想要完成的工作;“自动”则意味着这项指导性技术是可用的。下文中列举了一些在响应模型中应用CHAID的好处。
研究人员通常会搜集大量的预期解释变量。CHAID可以用来提前筛选数据以剔除随机变量(对预测没有贡献的变量)。另外,对于那些已进入CHAID的变量,其进入的次序揭示了他们对预测的重要程度。
一个分类变量包含着若干类别,但对响应变量而言并不是每一个类别都实际显著。CHAID可以帮助解决哪些类别需要合并的问题。比如,一组数据分为十二类,分别代表不同的地区,但是也许这12个类别仅有3种不同的响应模式。在这种情况下,应该合并地区分类。CHAID将进行统计检验,合并不显著的类别。
有些解释变量可能由无序类别组成,有些则可能由有序类别组成。如果统计上可行的话,研究人员希望合并前者中所有的无序类别,而仅合并后者中临近的类别。CHAID 可以实现这两种合并。
回归分析适用于揭示线性关系。例如,假设随着受访者受教育程度的增加,针对相应问题回答“是”的百分比也增加了。那么这种模式就是线性的,回归分析可以揭示出这种关系。但是,如果随着受教育程度的增加,针对相应问题回答“是”的百分比是先增加后下降的,那么,单纯的运用回归分析就无法揭示应答与教育水平之间的显著关系了,因为这个模式不是线性的。换句话说,CHAID揭示非线性关系。
回归分析揭示出主要的影响因素。也就是说,我们做回归分析时假设某个解释变量的影响相对于其他解释变量的取值而言是不变的。但事实未必如此。因此,研究人员在确定某一个解释变量对响应变量的影响之前,需要指定其他解释变量的水平。这被称为一个“指定影响”或一个“交互作用”。CHAID能够揭示解释变量间的交互作用。
CHAID会生成一个分类树。研究人员可以从该分类树上找到统计上显著的分割点。由于