如何运用决策树进行分类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何运用决策树进行分类分析
前面我们讲到了聚类分析的基本方法,这次我们来讲讲分类分析的方法。
所谓分类分析,就是基于响应,找出更好区分响应的识别模式。分类分析的方法很多,一般而言,当你的响应为分类变量时,我们就可以使用各种机器学习的方法来进行分类的模式识别工作,而决策树就是一类最为常见的机器学习的分类算法。
决策树,顾名思义,是基于树结构来进行决策的,它采用自顶向下的贪婪算法,在每个结点选择分类的效果最好的属性对样本进行分类,然后继续这一过程,直到这棵树能准确地分类训练样本或所有的属性都已被使用过。
建造好决策树以后,我们就可以使用决策树对新的事例进行分类。我们以一个生活小案例来说什么是决策树。例如,当一位女士来决定是否同男士进行约会的时候,她面临的问题是“什么样的男士是适合我的,是我值得花时间去见面再进行深入了解的?”
这个时候,我们找到了一些女生约会对象的相关属性信息,例如,年龄、长相、收入等等,然后通过构建决策树,层层分析,最终得到女士愿意去近一步约会的男士的标准。
图:利用决策树确定约会对象的条件
接下来,我们来看看这个决策的过程什么样的。
那么,问题来了,怎样才能产生一棵关于确定约会对象的决策树呢?在构造决策树的过程中,我们希望决策树的每一个分支结点所包含的样本尽可能属于同一类别,即结点的”纯度”(Purity )越来越高。
信息熵(Information Entropy )是我们度量样本集合纯度的最常见指标,假定当前样本集合中第K 类样本所占的比例为P k ,则该样本集合的信息熵为:
Ent (D )=−∑p k |y|
k=1
log 2p k
有了这个结点的信息熵,我们接下来就要在这个结点上对决策树进行裁剪。当我们选择了某一个属性对该结点,使用该属性将这个结点分成了2类,此时裁剪出来的样本集为D 1和D 2,
然后我们根据样本数量的大小,对这两个裁剪点赋予权重|D 1||D|⁄,|D 2||D|⁄,最后我们就
可以得出在这个结点裁剪这个属性所获得的信息增益(Information Gain )
Gain(D ,a)=Ent (D )−∑|D V ||D |2
v=1Ent(D V )
在一个结点的裁剪过程中,出现信息增益最大的属性就是最佳的裁剪点,因为在这个属性上,我们获得了最大的信息增益,即信息纯度提升的最大。
其实,决策树不仅可以帮助我们提高生活的质量,更可以提高产品的质量。
例如,我们下表是一组产品最终是否被质检接受的数据,这组数据共有90个样本量,数据的响应量为接受或拒绝,则|y|=2。在我们还没有对数据进行裁剪时,结点包含全部的样本量,其中接受占比为p 1=
7690,拒绝占比为p 2=1490,此时,该结点的信息熵为: Ent (D )=−∑p k |y|k=1log 2p k =-(7690log 27690+1490log 21490)=0.6235
图:产品质检结果
然后我们就根据信息增益最大的标准来寻找一个适合的裁剪属性和裁剪值,如下图所示:
图:决策树结点裁剪情况
通过信息增益原则,我们就可以在每个结点上进行决策树的裁剪,但裁剪到何时,决策树能够达到一个最佳的结果,这也是我们关注的焦点。
一般我们通过预剪枝和后剪枝来判断决策树是否还需要进行近一步的裁剪,这里仅就后剪枝进行介绍。在后剪枝中,我们在裁剪点上,对裁剪前和裁剪后验证集的精度进行判断,如果裁剪后的精度更高,则该裁剪点是需要进行裁剪的,直到最后不能裁剪为止。
如下图所示,在本例中,我们看到在“Spray Rate”裁剪之前,产品的接收率为95.45%,裁剪之后,产品的接收率提高至99.70%,这时候充分说明这一步的裁剪对于信息增益是有帮助
的,这一步的裁剪时必要的。
图:基于后剪枝的裁剪点判断
当我们基于裁剪规则最后完成决策树之后,我们就可以基于决策树的分枝情况找出区分产品是否合格的识别模式,从而更好的帮助我们进行产品质量的判断和工艺的改善。
图:决策树分类过程
从上图上我们可以看到,原药尺寸是影响药品质量的最为关键因素,尺寸为3,4时,药品的合格率高达95%,而尺寸为5时,仅为68%,两者存在巨大的差距;我们继续进行裁剪,这时候发现,即使当原药尺寸为5时,如果我们的研磨时间可以控制在11分钟之上,这时候药品的合格率也会发生显著的提升,11分钟以下和11分钟以上的合格率对比为87%和
25%;而到了尺寸为3,4这边,即使是整体的合格率已经高达95%,如果在喷射强度上不加以控制的话,也会造成大量的产品不合格的情况,强度高于404和低于404的合格率对比为99%和68%,依然存在着巨大的差异。
通过这样一层层的裁剪,我们最后可以得到一棵完整的决策树,通过这个决策树,我们找到了分类响应的识别模式,它不单单可以帮助我们对现有产品进行预测,也可以使得我们认识到如何去获得相应的方法,这样我们就可以改善我们的相关因子,以便得到理想的响应了。