基于分类回归树(CART)方法的统计解析模型的应用与研究-张立彬
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
!
分类回归树 ("#$%) 与统计解析建模 分类回归树 ("#$%)
! &!
假设样本空间 ! 包含两类样本 (. 类, , 按照一定规则进行分割, 产生 7 类) 4.26 将之作为根节点, 且 ! " ; !< " !。 这个过程回归地对 !; , 直至 两个节点, 即子集 !; , !< 满足 ! " !; ! !< , !< 重复进行, 按照某种标准, 节点无法再分, 成为最终的叶节点, 而这些叶节点所表示的数据子空间的特征决定了它 们属于哪一类样本 (. 类或 7 类) 。 在同一棵树上, 若干叶节点可以有相同的类别标志, 故最终的分类结 果是相同类别标志的叶节点的并集, 最终整个空间 ! " ! . ! ! 7, 如图 ; 所示。 (;)原始观测样本的数 4.26 算法的输入有三类: 据, 即用于训练和检验 4.26 分类的样本的独立变量和 因变量数据; (<)先验概率: 总体空间中每一类样本出 现的概率, 在实际中这个数值往往由样本空间中各类 样本的数量的比值近似代替, 记为 %( ; (E) 错 <) ; & " ;, 分成本: 错分成本有两类, 一类是将 . 类样本错判为 7 另一类是将 7 类样本错判 类而发生的损失, 表示为 ’;< , 在计算中以二者 为 . 类样本而产生的损失, 表示为 ’<; 。 的比值表示损失关系。 需要指出, 4.26 算法进行每一 =# > =? ! =;; ! =@ ! =;A , D" 表示分割规则 =$ > =;< ! =B ! =C , 图;
!4
1
!"#
选择最优树
+ , + , 现在开始从 %&’( 序列 , 也就是说选择最优化的复杂度参数 !。 由公式 (,) !! …, !4 中选择最优树, + ( ,) 的数学期望和选择最小回归估计值 " ( (5,A ) 可以确定 !。 我们可以用 看出, 通过估计冗余平方和 " 交叉有效性评估 ( %@5337B1;=C16=5D E36=9160) 的方法来实现以上两个值的确定。 例如, 在 !- 倍数交叉有效 性检验中, 先取样本的 F-6 来生成 %&’(, 通过剪枝生成一个子树队列, 再计算队列中每棵子树的冗余 量的平方。 然后, 用剩余的样本的 !-6 作为测试集, 测试重复 !- 次, 每次对样本的不同部分作估计测试。 ,) 在实际应用中, 对" (+ 的数学期望的估计很难找到明确的最小值, 但是, 可以确信的是, 我们找到的值 ,) 可以认为是比较接近理想的 " (+ 的数学期望的最小值的。
1
(Fra Baidu bibliotek./ % /#!
" + , ’/ ) ) 2(
(*)
接下来, 继续分别对 "! 和 "" 按上面的方式分割, 直到观测样本数量变的很少 (通常为 * 个) 或者样 本冗余的平方和为最小。 其中 " 为根节点, 直到最终结果成为一棵二 "! 和 "" 分别为 " 的左右子节点。 叉树。 ! + " + " %&’( 的剪枝算法 为了避免树生长的过分庞大, 对树进行剪枝十分有必要。 但是, 在树训练过度前就停止它的生长并 不一定是最好的方法。 例如, 如果在 %&’( 的样本冗余的平方和下降不再明显时停止对树的生长, 这可 能只引起样本冗余的平方和暂时下降不再明显, 但是, 随着 %&’( 的进一步生长。 此平方和的值可能会 产生更大的下降。 我们设定: ! " + , ’/ ) ( ./ 2 ( ) (,) 1% /#! 设 - #! 3 . 为复杂度参数, 有如下公式: , )# " , )0 !/01203 ,) (+ (+ (+ (4) " ! + 其中 /01203 ( ,) 为 %&’( 叶节点的数量; ( ,) 可以理解为该树加权错分率与对复杂度处罚值之和 " ! + + + , 的复合成本。 定义 , 为过度训练树, ( , )的具有最少节点子树。 如果复杂度参数 ( %5367859:;0<=6> !为" + 则 , 当! 由 - 增至无穷时, 仅有有限对应于! 的 ?1@19060@) ! 足够大, ! 最终为仅包含根节点的评估常数; + , 对 - # !! 3 !" 3 … 3 !4 , 整数 4 小于或等于过度训练树 , 的叶节点的数量; 对于!4 #! 3 !4 0 ! , 设 !。 + + + + , , 由此, 我们可以生成节点数逐次降低的 %&’( 序列 , …, 其中 , ! 是具有最小节点的子树。 !! , !4 , !! 为初始 + , 为仅包含根节点的树。 树, , )# (+ "
!"#"$%&’ $() $**+,&$-,.( ./ -’" #-$-,#-,&$+ 0.)"+# 1$#") .( 23!4
56,78 19$:9;,56,78 <9$=9>;,?2 @>;A,B2 C9>;A$DEF;A
( G;DH9HIHF JK LFME>HNJ;9MD O;A9;FFN9;A,5EFP9>;A 2;9QFND9HR JK .FME;JSJAR,6>;ATEJI &!""&’,+E9;>)
!
引
言
随着网络信息化社会的到来, 当前人们所担心的不再是信息匮乏, 而是面对如此多的信息感到不知 所措, 不知道如何从中提取有用的信息, 从而造成了信息资源的巨大浪费。因此信息化不等于数据处理 的自动化, 只有寻找一种合适的数据解析方法, 构造一种针对某类信息进行处理的模型才能从抽象的、 繁杂的数据提取所需的信息, 真正实现信息的价值。 目前统计模型的建立主要基于两种不同的模式, 一种是经典的假设驱动模式, 另一种是数据驱动模
第 &" 卷第 % 期 ’""’ 年 [ 月
浙江工业大学学报
C\2-7,1 \@ 56OCG,78 27G]O-/G.^ \@ .O+67\1\8^
]JS4 &" 7J4 % ,IA4 ’""’
文章编号: (’""’) !""#$%&"& "%$"&!($"%
基于分类回归树 ( +,-.) 方法的统计解析 模型的应用与研究
次分割暗含这样的假设: 某节点未被分割时, 该子集的样本是同质的, 而当对其分割, 即相对上一次分割 增加新的分割条件, 这个子集的样本被分裂为两个相异的子集。 !&’ 构造 "#$% 采用的思路: 在整体样本数据的基础上, 生成一个层次多, 叶节点多的大树, 以充分反映数据之间的 联系 (这时这个树往往反映的是训练过度情况下的数据联系) , 然后对其进行删减, 产生一系列子树, 从 中选择适当大小的树, 用于对数据进行分类。 4.26 的生长 首 先, 认 为 4.26 的 评 估 值 为 样 本 空 间 的 常 数, 即为响应变量 4.26 的生长可 以 是 逐 步 进 行。 ( 2$+G(#+$ H%&"%I*$+ ) 的平均值。 当响应变量的观测值发生变化时, 4.26 的评估值可表示为: ;F<F; ; (;) ,& -( . *) +# &"; 是 . 的指标函数。 其中, . 是指样本空间, -( . *) 万方数据 然后, 将样本空间分成两部分, 选一个特定的回归变量 !/ 。 如果 !/ 为一连续随机变量, 选择一个指 ( ) * )" (
! /
*!
( - *! - % . ) * ( $)0 ( - *! - % . ) * ( $)
"! " /
*"
""
())
其中 * ! # {/ " ’ ! "!} ,- * ! - 是 * ! 中样本的个数; 将样本空间 " 分为 "! 和 "" 两部分所依赖的准则是 使评估值冗余平方和为最小。 样本冗余的平方和定义如下:
张立彬, 张其前, 胥 芳, 杜奖胜
(浙江工业大学 机电一体化研究所, 浙江 杭州 &!""&’)
摘要: 分类回归树是基于统计理论的非参数的识别技术, 它具有非常强大的统计解析功能, 对输 入数据和预测数据的要求可以是不完整的, 或者是复杂的浮点数运算。而且, 数据处理后的结 果所包含的规则明白易懂。因此, 分类回归树已成为对特征数据进行建立统计解析模型的一个 很好的方法。本文首先介绍了一种构建分类回归树的算法, 并对其剪枝策略进行了简单的探 讨, 最后用统计解析软件 /$012/ 对一个应用实例进行了分析, 给出结果。 关键词: 分类回归树;二叉树;/$012/;交叉有效性评估 中图分类号: .3!!% 4 ! 文献标识码: ,
收稿日期: 修订日期: ’""! ) !" ) !(; ’""’ ) ! ) !( 作者简介: 张立彬 (!*(( ) ) , 男, 浙江义乌人, 农业工程专家, 博士, 教授, 博士生导师。
万方数据
・ E;J ・
浙 江 工 业 大 学 学 报
第 EA 卷
式。他们可以交互的用于数据解析模型的创建中。比如, 在经典的回归分析中, 也经常用数据驱动方法 来检测数据冗余的产生, 以确认模型假设中的内在的数据相关性。总而言之, 无论哪种方法, 其目的都 是使创建的模型尽可能的接近实际的目标, 并且使创建的模型尽可能的简单。建模所采用的方法很多, 主要有线性模型 (!"#$%& ’()$*+) 、 通用线性模型 ( ,$#$&%*"-$) !"#$%& ’()$*+) 、 可加模型 ( .))"/"0$ ’()$*+) , 局部回归模型 ( !(1%* 2$3&$++"(# ’()$*+) 、 分类回归树模型 ( 4*%++"5"1%/"(# %#) 2$3&$++"(# 6&$$ ’()$*+) 等。 基于分类回归树 ( 4.26 : 的数学模型在统计解析和数据结构挖掘方 4*%++"5"1%/"(# %#) 2$3&$++"(# 6&$$) 面是一个正在探索中的技术。按照 4.26 的构建原理, 可将之视为数据分析的非参数统计过程, 其特点 是在计算过程中充分利用二叉树的结构 ( 7"#%&8 6&$$9+/&:1/:&$)) , 即根节点包含所有样本, 在一定的分割 规则下根节点被分割为两个子节点, 这个过程又在子节点上重复进行, 成为一个回归过程, 直至不可再 分成为叶节点为止。
31#-%$&-:+,-.( +S>DD9K9M>H9J; >;U -FANFDD9J; .NFF)9D > V9;U JK ;J; ) W>N>XFHFN NFMJA;9T9;A HFME;JSJAR :>DFU J; HEF DH>H9DH9M>S HEFJNR 4 .EF MJ;DHNIMH9J; JK +,-. E>D :FMJXF > MJXXJ; :>D9M XFHEJU KJN :I9SU9;A DH>H9DH9M>S XJUFSD KNJX D9XWSF KF>HINF U>H> 4 +,-. 9D WJYFNKIS :FM>IDF 9H M>; UF>S Y9HE 9;MJXWSFHF U>H>, XISH9WSF HRWFD JK KF>HINFD KSJ>HD :JHE 9; 9;WIH KF>HINFD >;U WNFU9MHFU KF>HINFD >;U HEF HNFFD 9H WNJUIMFD JKHF; MJ;H>9; NISFD YE9ME >NF EIX>;SR NF>U>:SF 4 G; HE9D >NH9MSF,G K9NDH 9;HNJUIMF DJXF >N9HEXFH9M >WWS9FU HJ :I9SU > V9;U JK +,-.,>;U HEF; U9DMIDD HEF WNI;F XFHEJU JK +,-. ,H S>DH,G >;>SRTF >; >WWS9M>H9J; FZ>XWSF Y9HE HEF DJKHY>NF /$012/ 4 5"6 7.%)#:MS>DD9K9M>H9J; >;U NFANFDD9J; HNFF;:9;>NR HNFF;/ ) 012/;MNJDD$Q>S9U>H9J; FDH9X>HF
(
+
)
第)期
张立彬, 等: 基于分类回归树 ( %&’() 方法的统计解析模型的应用与研究
・ $!4 ・
标量 ! , 并且定义: ,"" # {$ ! " " $% & !} , (") "! # {$ ! " " $% #!} 值为 (! , …, 则选择它们的子集合 * $ {(! , …, , 并且定义: 如果 ’% 是无条件随机变量, (", () , () } ,"! # {$ ! " " $% ! {(! , …, , ($) "! # {$ ! " " $% #!} () }# * } 可以得到, 第二步的 %&’( 的评估值可表示为: + , $ )# (