随机森林及CART的算法讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机森林
随机森林
随机森林的基本思想: 通过自助法(boot-strap)重采样技术,不断
生成训练样本和测试样本,由训练样本生成多个分 类树组成随机森林,测试数据的分类结果按分类树 投票多少形成的分数而定。
随机森林有两个重要参数: 一是树节点预选的变量个数; 二是随机森林中树的个数。
分类器组合
• AdaBoosting(Adaptive Boosting)
• 样本: (X, y)
– y为分类 => 分类树 – y为实数 => 回归树
• 设t代表树的某个节点,t中的样本集合为:{(X1,y1),
(X2,y2) …},应变量为实数,N(t)是节点t中的样本个数。
节点t的应变量的均值:
y
1 N (t) N (t) i1,Xit
yi
• 节点t内的平方残差最小化 (squared residuals
随机森林算法
• 随机森林算法是Leo Breiman于2001年提 出的一种新型分类和预测模型,它具有需要 调整的参数较少、不必担心过度拟合、分 类速度很快, 能高效处理大样本数据、能估 计哪个特征在分类中更重要以及较强的抗 噪音能力等特点, 因此, 在基因芯片数据挖 掘、代谢途径分析及药物筛选等生物学领 域得到应用并取得了较好的效果。该方法 是基于决策树(decision tree) 的分类器 集成算法。
• 森林中单颗树的分类强度(Strength): 每颗树的分类强度越大,则随机森林的分 类性能越好。
• 森林中树之间的相关度(Correlation): 树之间的相关度越大,则随机森林的分类 性能越差。
ID3和cart的算法区别
• CART是L.Breiman等人在1984 年提出的决策树算法, 其原理与ID3相似,在CART中提出了杂度削减的概念, 按杂度削减最大分裂节点生长决策树,与ID3不同的是, CART最终生成二叉树,然后利用重采技术进行误差估计 和树剪枝,然后选择最优作为最终构建的决策树。这些算 法均要求训练集全部或一部分在分类的过程中一直驻留在 内存中。
minimization algorithm):
N (t)
SS(t)
( yi y(t))2
i1, Xit
CART- 回归树算法步骤示意
• CART_regression(DataSet, featureList, alpha, delta): – 创建根节点R – 如果当前DataSet中的数据的值都相同,则标记R的值为该值 – 如果最大的phi值小于设定阈值delta,则标记R的值为DataSet应变量 均值 – 如果其中一个要产生的节点的样本数量小于alpha,则不再分解,标记R 的值为DataSet应变量均值
– 对每个样本赋予一个权重,代表该样本被当前分类器 选入训练集的概率,并根据预测函数的输出与期望输 出的差异调整权重:如某个样本点已被正确分类,则 它的权重减小,否则,它的权重增大;通过这种方式, 使得学习算法能集中学习较难判别的样本。
– 经 的过权T重轮{训1,练,2,…得,到TT}个,分最类终函的数分{类f1规,f2则,…为,加fT}权及投对票应法
14
CART
• 二元划分
– 二叉树不易产生数据碎片,精确度往往也会高于多 叉树,所以在CART算法中,采用了二元划分
• 不纯性度量
– 分类目标:Gini指标、Towing、order Towing – 连续目标:最小平方残差、最小绝对残差
• 剪枝:
– 用独立的验证数据集对训练集生长的树进行剪枝
CART- 回归树
12
二、ID3算法
⒈ 对当前例子集合,计算各属性的信息增益; ⒉ 选择信息增益最大的属性Ak; ⒊ 把在Ak处取值相同的例子归于同一子集,Ak取几 个值就得几个子集; ⒋ 对既含正例又含反例的子集,递归调用建树算法; ⒌ 若子集仅含正例或反例,对应分枝标上P或N,返 回调用处。
13
ID3在建树时,每个节点仅含一个属性,是一种单变元的算法,属 性间的相关性强调不够。虽然它将多个属性用一棵树连在一起,但 联系还是松散的。
• 根据生成的多个树分类器对新的数据进行 预测,分类结果按每个树分类器的投票多少 而定。
• 随机森林通过在每个节点处随机选择特征 进行分支,最小化了各棵分类树之间的相 关性,提高了分类精确度。因为每棵树的 生长很快,所以随机森林的分类速度很快, 并且很容易实现并行化。
随机森林分类性能的主要因素
• 自助法重采样
在统计量重采样技术中,一种新方法是自 助法(bootstrap)。自助法是从原始的样 本容量为N的训练样本集合中随机抽取N个 样本生成新的训练样本集,抽样方法为有 放回抽样,这样重新采样的数据集不可避 免地存在着重复的样本。独立抽样k次,生 成k个相互独立的自助样本集。
随机森林算法基本原理
ID3方法基本思想
❖ 首先找出最有判别力的属性,把样例分成多 个子集,每个子集又选择最有判别力的属性 进行划分,一直进行到所有子集仅包含同一 类型的数据为止。最后得到一棵决策树。
❖ J.R.Quinlan的工作主要是引进了信息论中 的信息增益,他将其称为信息增益 (information gain),作为属性判别能力 的度量,设计了构造决策树的递归算法。
• 随机森林是通过一种新的自助法重采样技术生成 很多个树分类器, 其步骤如下:
1. 从原始训练数据中生成k个自助样本集, 每个 自助样本集是每棵分类树的全部训练数据。
2. 每个自助样本集生长为单棵分类树。在树的每 个节点处从M个特征中随机挑选m个特征 (m《M), 按照节点不纯度最小的原则从这个 m特征中选出一个特征进行分支生长。这棵分类 树进行充分生长, 使每个节点的不纯度达到最小, 不进行通常的剪枝操作。
(4)ID3对噪声较为敏感。关于什么是噪声,Quinlan的定 义是训练例子中的错误就是噪声。它包含两方面,一是属性值取 错,二是类别给错。
当训练集增加时,ID3的决策树会随之变化。在建树过程中,各 属性的信息增益会随例子的增加而改变,从而使决策树也变化。 这对渐近学习(即训练例子不断增加)是不方便的。
• Bagging(Breiman,1996)
– 在训练的每一轮中,均从原始样本集S中有放回地随机 抽取训练样本集T(T的样本个数同S),这样一个初始 样本在某轮训练中可能出现多次或根本不出现( S中 每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368,当|S|很 大时)。
– 最终的分类规则为简单多数投票法或简单平均法
随机森林
随机森林的基本思想: 通过自助法(boot-strap)重采样技术,不断
生成训练样本和测试样本,由训练样本生成多个分 类树组成随机森林,测试数据的分类结果按分类树 投票多少形成的分数而定。
随机森林有两个重要参数: 一是树节点预选的变量个数; 二是随机森林中树的个数。
分类器组合
• AdaBoosting(Adaptive Boosting)
• 样本: (X, y)
– y为分类 => 分类树 – y为实数 => 回归树
• 设t代表树的某个节点,t中的样本集合为:{(X1,y1),
(X2,y2) …},应变量为实数,N(t)是节点t中的样本个数。
节点t的应变量的均值:
y
1 N (t) N (t) i1,Xit
yi
• 节点t内的平方残差最小化 (squared residuals
随机森林算法
• 随机森林算法是Leo Breiman于2001年提 出的一种新型分类和预测模型,它具有需要 调整的参数较少、不必担心过度拟合、分 类速度很快, 能高效处理大样本数据、能估 计哪个特征在分类中更重要以及较强的抗 噪音能力等特点, 因此, 在基因芯片数据挖 掘、代谢途径分析及药物筛选等生物学领 域得到应用并取得了较好的效果。该方法 是基于决策树(decision tree) 的分类器 集成算法。
• 森林中单颗树的分类强度(Strength): 每颗树的分类强度越大,则随机森林的分 类性能越好。
• 森林中树之间的相关度(Correlation): 树之间的相关度越大,则随机森林的分类 性能越差。
ID3和cart的算法区别
• CART是L.Breiman等人在1984 年提出的决策树算法, 其原理与ID3相似,在CART中提出了杂度削减的概念, 按杂度削减最大分裂节点生长决策树,与ID3不同的是, CART最终生成二叉树,然后利用重采技术进行误差估计 和树剪枝,然后选择最优作为最终构建的决策树。这些算 法均要求训练集全部或一部分在分类的过程中一直驻留在 内存中。
minimization algorithm):
N (t)
SS(t)
( yi y(t))2
i1, Xit
CART- 回归树算法步骤示意
• CART_regression(DataSet, featureList, alpha, delta): – 创建根节点R – 如果当前DataSet中的数据的值都相同,则标记R的值为该值 – 如果最大的phi值小于设定阈值delta,则标记R的值为DataSet应变量 均值 – 如果其中一个要产生的节点的样本数量小于alpha,则不再分解,标记R 的值为DataSet应变量均值
– 对每个样本赋予一个权重,代表该样本被当前分类器 选入训练集的概率,并根据预测函数的输出与期望输 出的差异调整权重:如某个样本点已被正确分类,则 它的权重减小,否则,它的权重增大;通过这种方式, 使得学习算法能集中学习较难判别的样本。
– 经 的过权T重轮{训1,练,2,…得,到TT}个,分最类终函的数分{类f1规,f2则,…为,加fT}权及投对票应法
14
CART
• 二元划分
– 二叉树不易产生数据碎片,精确度往往也会高于多 叉树,所以在CART算法中,采用了二元划分
• 不纯性度量
– 分类目标:Gini指标、Towing、order Towing – 连续目标:最小平方残差、最小绝对残差
• 剪枝:
– 用独立的验证数据集对训练集生长的树进行剪枝
CART- 回归树
12
二、ID3算法
⒈ 对当前例子集合,计算各属性的信息增益; ⒉ 选择信息增益最大的属性Ak; ⒊ 把在Ak处取值相同的例子归于同一子集,Ak取几 个值就得几个子集; ⒋ 对既含正例又含反例的子集,递归调用建树算法; ⒌ 若子集仅含正例或反例,对应分枝标上P或N,返 回调用处。
13
ID3在建树时,每个节点仅含一个属性,是一种单变元的算法,属 性间的相关性强调不够。虽然它将多个属性用一棵树连在一起,但 联系还是松散的。
• 根据生成的多个树分类器对新的数据进行 预测,分类结果按每个树分类器的投票多少 而定。
• 随机森林通过在每个节点处随机选择特征 进行分支,最小化了各棵分类树之间的相 关性,提高了分类精确度。因为每棵树的 生长很快,所以随机森林的分类速度很快, 并且很容易实现并行化。
随机森林分类性能的主要因素
• 自助法重采样
在统计量重采样技术中,一种新方法是自 助法(bootstrap)。自助法是从原始的样 本容量为N的训练样本集合中随机抽取N个 样本生成新的训练样本集,抽样方法为有 放回抽样,这样重新采样的数据集不可避 免地存在着重复的样本。独立抽样k次,生 成k个相互独立的自助样本集。
随机森林算法基本原理
ID3方法基本思想
❖ 首先找出最有判别力的属性,把样例分成多 个子集,每个子集又选择最有判别力的属性 进行划分,一直进行到所有子集仅包含同一 类型的数据为止。最后得到一棵决策树。
❖ J.R.Quinlan的工作主要是引进了信息论中 的信息增益,他将其称为信息增益 (information gain),作为属性判别能力 的度量,设计了构造决策树的递归算法。
• 随机森林是通过一种新的自助法重采样技术生成 很多个树分类器, 其步骤如下:
1. 从原始训练数据中生成k个自助样本集, 每个 自助样本集是每棵分类树的全部训练数据。
2. 每个自助样本集生长为单棵分类树。在树的每 个节点处从M个特征中随机挑选m个特征 (m《M), 按照节点不纯度最小的原则从这个 m特征中选出一个特征进行分支生长。这棵分类 树进行充分生长, 使每个节点的不纯度达到最小, 不进行通常的剪枝操作。
(4)ID3对噪声较为敏感。关于什么是噪声,Quinlan的定 义是训练例子中的错误就是噪声。它包含两方面,一是属性值取 错,二是类别给错。
当训练集增加时,ID3的决策树会随之变化。在建树过程中,各 属性的信息增益会随例子的增加而改变,从而使决策树也变化。 这对渐近学习(即训练例子不断增加)是不方便的。
• Bagging(Breiman,1996)
– 在训练的每一轮中,均从原始样本集S中有放回地随机 抽取训练样本集T(T的样本个数同S),这样一个初始 样本在某轮训练中可能出现多次或根本不出现( S中 每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368,当|S|很 大时)。
– 最终的分类规则为简单多数投票法或简单平均法