分类与回归分析.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浙江大学医学院流行病与卫生统计学教研室
沈毅
五、实例分析
分类决策树(回归树)在病例组合中的应用
根据医疗资源消耗相近的原则,选取每个病例的住院总费用为分组轴心(即目标变量), 以年龄、婚否、性别、手术、护理、抢救、伴随病、费用类别、入院情况、转归情况为分 类结点(即预测变量),并对目标变量和预测变量进行重新编码 。
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、模型验证
设定合适的验证模型的方式: ①Do not validate the tree:不另外建立数据集对模型进行验证,模型的建立 和检验都基于整个数据集。 ②Partition my data into subsamples:整个数据文件成两部分,即训练样 本(training sample)和检验样本(testing sample),如果通过训练样本 生成的模型能够较好地拟合检验样本,则表明生成的决策树对类似于当 前数据集结构的更大的数据集具有较好的通用性。 在生成满意的训练样本的决策树后,对样本进行检验,决策树即变为应用 检验样本后的结果,接着通过考察估计误差、gain系数,可以决定生成的 决策树的通用程度。当样本量较大时可以选择该法。 ③Cross-validation:该法将整个数据集拆分成数个相等大小的部分,分别以 每一部分作为检验样本,其余部分作为训练样本,生成数个决策树,并计 算各个决策树的危险估计(risk estimates)的平均值。该法适用于样本量较 小的情形。
浙江大学医学院流行病与卫生统计学教研室
沈毅
一、方法选择
①CHAID(Chi-squared Automatic Interaction Detector),由
Kass于1980年提出,其核心思想是:根据给定的结果变量(即目标变 量)和经过筛选的特征指标(即预测变量)对样本进行最优分割,按 照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是: 首先选定分类的目标变量,然后用分类指标与结果变量进行交叉分类, 产生一系列二维分类表,分别计算二维分类表的χ2值,比较P值的大 小,以P值最小的二维表作为最佳初始分类表,在最佳二维分类的基
础上继续使用分类指标对目标变量进行分类,重复上述过程直到P大
于设定的有统计意义的α值时则分类停止。目标变量可以为nominal、 ordinal、continuous三种类型,每个拆分点可以有多个子结点。
浙江大学医学院流行病与卫生统计学教研室
沈毅
②Exhaustive CHAID,由Biggs于1991年提出,通过 连续合并相近的对子反复检测来选择最佳拆分点,相对 于CHAID法需要花费较长的时间。目标变量可以为 nominal、ordinal、continuous三种类型,其每个拆分点
浙江大学医学院流行病与wk.baidu.com生统计学教研室
沈毅
四、修剪树枝
在这一步中可以通过设置树状图的最大层数(Maximum Tree Depth)、根结点(Parent Node)及子结点(Child Node) 的最小例数(Minimum Number of Cases)来确定生成树的终止 规则(Stoping Rules);终止规则会随着所选定算法的不同而不 同;当目标变量是nominal型时,还可以估计对错误分类造成的费 用(costs);总之,这一部分比较复杂也较难掌握。
分类树与回归树分析
——决策树分类
浙江大学医学院流行病与卫生统计学教研室
沈毅
饮酒与产妇年龄发生早产的风险:
高风险 低风险
浙江大学医学院流行病与卫生统计学教研室
沈毅
决策树的基本概念:
分类:决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对 连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控 制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。
为一个回归过程,直至不可再分成为子结点为止,最后产生同质的 与目标变量有关的子集。其目标是以尽量小的树将目标变量分入同
质的组中。目标变量也可以为nominal、ordinal、continuous三种
类型,其最终生成一个二叉树。
浙江大学医学院流行病与卫生统计学教研室
沈毅
④QUEST(Quick, Unbiased, Efficient Statistical Tree), 由Loh和Shih于1997年提出,是一种快速且可避免由多分类
变 量 目标变量 住院总费用 预测变量 年龄 婚否 性别 手术 护理 抢救 伴随病 费用类别 入院情况 转归情况 1:0~20 岁 2:21~40 岁 3:41~60 岁 4:≥61 岁 1:未婚 2:已婚 3:离婚 4:丧偶 1:男 2:女 0:无 1:有 0:无 1:有 0:无 1:有 0:无 1:有 1:自费 2:公费 3:其它 1:一般 2:急 3:危 1:有效 2:死亡 3:其他 (元) 量化方法或单位
预测变量引起的偏倚的算法。目标变量仅限于nominal型,
且其最后生成的是二叉树。
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、模型定义
在这一步可以选择并定义目标变量和预测变量,如果选择 了QUEST法,则目标变量只能为nominal型。要改变变量的类 型,可以对变量类型进行重定义(define variables)。(注意: 目标变量类型的不同,树枝修剪的规则也不同)
可以有多个子结点。
浙江大学医学院流行病与卫生统计学教研室
沈毅
③C&RT(Classification and Regression Trees),由Breiman
等于1984年首次提出,CART在计算过程中充分利用二叉树的结构, 即根结点包含所有样本,对预测变量应用多种统计方法反复运算,
将根结点分割为两个子结点,这个过程又在子结点上重复进行,成
过程:通过递归分割的过程构建决策树。
寻找初始分裂:整个训练集作为产生决策树的集合,训练集每个记录必须是已
经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷
尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量 化的标准是计算每个分裂的多样性(diversity)指标GINI指标。 生成一棵完整的树:重复第一步,直至每个叶节点内的记录都属于同一类。 数据的修剪:不同的算法有不同修剪规则(修剪成大小合适的树)。