随机森林算法(优选.)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计预测算法选讲

随机森林算法原理与应用

报告人:刘思叶

◆绪论

◆统计预测

◆统计预测发展历程

◆随机森林研究现状

◆分类决策树

◆决策树引导

◆决策树定义

◆决策树构造

◆决策树构造实例

◆随机森林

◆随机森林引导

◆随机森林原理

◆随机森林特性

◆随机森林优化方法

◆随机森林在遥感中应用

何为预测?《韦伯斯特辞典》中预测的定义为:“以现有的相应资料的理论研究和分析成果来预报未来的某些事件或情况”。

“知斗则修备,时用则知物,二者形则万货之情可得而观已。”

统计预测是在大量统计资料的基础上,运用社会、经济、环境统计和数理统计方法研究事物发展变化趋势和方向的预测方法。

统计预测的方法按照其发展时间顺序可以分为以下三个阶段:

◆结构计量模型阶段

◆时间序列模型阶段

◆数据挖掘和智能预测阶段

◆结构计量模型阶段

结构计量模型是先找到关于某个问题的理论,并先假定这个理论是正确的,然后根据该理论来设定具体的统计模型以用于估计和预测。该类模型最常见的是线性回归模型。

◆时间序列模型阶段

时间序列分析模型遵从的原则是利用某变量的历史数据来预测它的未来可能值,可以无须其他外生解释变量,也可以考虑考虑其它外生解释变量。该类模型最常见得是自回归条件异方差模型。

数据挖掘和智能预测阶段

信息技术以及计算机的发展,使得数据收集变得更加便捷,数据量呈爆炸式增长,比如超市的交易记录、地面的遥感图像和人体的心率数据。尽管传统的基于数学假设的参数模型某种程度任然有用,但是大量数据的获取显然可以使得我们进一步探索系统更加精细的结构,从而使得我们获得对真实世界更加合理和接近的解释,因此数据挖掘技术至此诞生。

目前主要的数据挖掘和智能预测方法主要有:决策树、神经网络、支持随机森林

向量机遗传算法和随机森林等。

1.3随机森林研究现状

单模型分类方法模型往往精度不高,容易出现过拟合问题,因此很多学

者往往通过组合多个多个单分类模型来提高预测精度,这些方法称为分类器

组合方法。

随机森林(Random Forest,RF)是决策树的组合,每棵决策树都是通过

对原始数据集中随机生成新的数据集来训练生成,随机森林决策的结果是多数决策树的决策结果。

该算法由Bireman于2001提出,并被广泛应于医学、经济学、管理和遥

感等领域,例如:在生态学方面,Gislason等利用RF方法对土地的覆盖面积

进行了研究,发现RF与其它组合算法相比,训练更快;在医学方面,Kouzania等人利用RF技术对肺部CT图像进行肺结核的自动检测;在遥感地

理学上,Gislason等利用RF分类器进行了土地覆盖研究。

◆绪论

◆统计预测

◆统计预测发展历程

◆随机森林研究现状

◆分类决策树

◆决策树引导

◆决策树定义

◆决策树构造

◆决策树构造实例

◆随机森林

◆随机森林引导

◆随机森林原理

◆随机森林特性

◆随机森林优化方法

◆随机森林在遥感中应用

通俗来说,决策树分类的思想类似于找对象。

女儿:多大年纪了?

母亲:26。

女儿:长的帅不帅?

母亲:挺帅的。

女儿:收入高不?

母亲:不算很高,中等情况。

女儿:是公务员不?

母亲:是,在税务局上班呢。

女儿:那好,我去见见。

假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑。

决策树定义

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树,一般取二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

决策树构造

即通过对样本数据的学习和训练,生成能够有效区分样本数据的决策树的过程。在生成过程中往往依据某种分裂属性(增益率,信息熵等),来确定决策树内部节点的判断条件,从而将样本数据集D分为D1、D2……Dn,通常使得D1、D2……Dn的区分度较高或各自的内聚性较好,并进而对D1、

D2……Dn进行递归分裂,最终获得的能够区分样本的决策树。

ID3算法

ID3算法的核心思想就是以信息增益作为分裂属性,选择分裂后信息增益最大的属性进行分裂。

设D为全部样本的集合,则D的熵(entropy)表示为:

将训练元组D按属性A进行划分,则A对D划分的熵为:

信息增益即为两者的差值:

ID3算法实例

首先计算按照日志密度分类获得的信息增益:

好友密度的信息增益分别是0.033和0.553。

按照好友密度进行分割得到的决策树如下:

◆绪论

◆统计预测

◆统计预测发展历程

◆随机森林研究现状

◆分类决策树

◆决策树引导

◆决策树定义

◆决策树构造

◆决策树构造实例

◆随机森林

◆随机森林引导

◆随机森林原理

◆随机森林特性

◆随机森林优化方法

◆随机森林在遥感中应用

相关文档
最新文档