【原创】Random Forest (随机森林)文献阅读汇报PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随机决策树 vs KNN
Sheng-Chen Zhou (SILC, SHU)
14
应用:客户流失预测
• 应维云. "随机森林方法及其在客户流失预测中 的应用研究." 管理评论 24.002 (2012): 140-145. • 客户流失数据中正负样本数量不平衡而且数据 量大,提出一种改进的平衡随机森林算法,应 用于某商业银行的客户流失预测。
• 抽样技术和代价敏感学习优点。
Sheng-Chen Zhou (SILC, SHU)
15
客户流失预测框架
Sheng-Chen Zhou (SILC, SHU)
16
• 问题:随机森林中每个树依赖独立的样本 随机向量,且所有的树具有同样的分布, 当数据集不平衡时,原始随机森林不能发 挥优越性。 • Breiman提出过两种改进方案: • 1)平衡随机森林算法(BRF) • 2)权重随机森林算法(WRF)
Sheng-Chen Zhou (SILC, SHU)
12
模型对比
• 数据集: • MASS包下的Boston数据集
• • • •
MSE Fitting Regression Trees: 25.05 Bagging: 13.16 Random Forest: 11.31
13
Sheng-Chen Zhou (SILC, SHU)
20
2017/9/14
Sheng-Chen Zhou (SILC, SHU)
21
Sheng-Chen Zhou (SILC, SHU)
3
随机森林树算法的定义
Sheng-Chen Zhou (SILC, SHU)
4
随机森林树的构建
• 每棵树的构建方法如下: • 用 N 来表示训练用例(样本)的个数,M表示特征数目。 • 输入特征数目 m ,用于确定决策树上一个节点的决策结果;其中m 应远小于M。 • 从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一 个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测, 评估其误差。 • 对于每一个节点,随机选择m个特征,决策树上每个节点的决定都 是基于这些特征确定的。根据这 m 个特征,计算其最佳的分裂方式。 • 每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵 正常树状分类器后会被采用)。
Random Forest (随机森林)
Leo Breiman 1928--2005
Sheng-Chen Zhou (SILC, SHU)
1
相关资料
Breiman, Leo. "Random forests." Machine learning 45.1 (2001): 5-32.
http://www.stat.berkeley.edu/users/breiman/RandomForests
Sheng-Chen Zhou (SILC, SHU)
17
改进平衡随机森林算法(IBRF)
• 集成BRF和WRF 的特征。 • 引入区间变量m和d。
Sheng-Chen Zhou (SILC, SHU)
18
IBRF架构
Sheng-Chen Zhou (SILC, SHU)
19
算法实验结果
Sheng-Chen Zhou (SILC, SHU)
Sheng-Chen Zhou (SILC, SHU)
2
随机森林树算法简介
• 随机森林树算法是一种组合多个树分类器 进行分类的方法。其基本思想是每次随机 选取一些特征,独立建立树,重复这个过 程,保证每次建立树时变量选取的可能性 一致,如此建立许多彼此独立的树,最终 的分类结果由产生的这些树共同决定。
Sheng-Chen Zhou (SILC, SHU)
5
随机森林的回归和分类算法
Sheng-Chen Zhou (SILC, SHU)
6
Sheng-Chen Zhou (SILC, SHU)
7
随机森林构建的特点
• 1、随机森林的随机性体现在每棵树的训练 样本是随机的,树中每个节点的分类属性 也是随机选择的。有了这2个随机的保证, 随机森林就不会产生过拟合的现象了。 • 2、随机森林中有两个量需要人为控制:一 个是森林中树的数量,另一个是m的大小。
Sheng-Chen Zhou (SILC, SHU)
8
随机森林树算法的性质
Βιβλιοθήκη Baidu
Sheng-Chen Zhou (SILC, SHU)
9
定理二
Sheng-Chen Zhou (SILC, SHU)
10
确定树的节点分裂变量
• 基本原则:信息减少最快或信息下降最大的方向选择 • 两种策略: • 1)Forest-RI:M为输入变量综述,F为每次拆分时选择 用于拆分的备选变量个数。F=1或F=int(lnM+1) • 2)Forest-RC:考虑用新变量替换原始变量产生子树。 每次生成树之前,确定衍生变量由L个原始变量线性组 合而,随机选择L个组合变量,随机分配权重,产生一 个新的组合变量,如此选出F个线性组合变量。 • F越大树之间的相关性越小,每棵树分类效果越好。但F 大运行时间长。经验表明,F大没有实质性改善预测误 差,所以Forest-RI中,一般F=1或2;Forest-RC,可取大, 也不必太大。
Sheng-Chen Zhou (SILC, SHU)
11
随机森林树算法的特点
• 1)随机森林树是一个有效的预测工具。 • 2)适合高维输入变量的特征选择,不需要提前对变 量进行删减和筛选。 • 3)能够提高分类或回归问题的准确率,同时也能避 免过拟合现象的出现。 • 4)当数据集中存在大量缺失值时,能对缺失值进行 有效的估计和处理。 • 5)能够在分类或回归过程中估计特征变量或解释变 量的重要性。 • 6)泛化误差趋向于上界,表明对未知数据有较好的 泛化能力。