机器学习集成学习作业

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习作业：

1、试分析和总结随机森林（Random Forest）和梯度提升树

（GBDT）的区别（至少写出三条）。

随机森林可以是分类树也可以是回归树；GBDT只能是回归树；

随机森林对异常值不敏感，而GBDT对异常值很敏感；

随机森林对训练集一视同仁，GBDT是基于权值的弱分类器的集成；

随机森林采用多数投票等，BDT则是将所有结果累加起来，或者加权累加来。2、解释随机森林预测算法的原理，并分析随机森林能够降低方

差的原因。

随机森林预测算法的原理：

①从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集；

②对于n_tree个训练集，分别训练n_tree个决策树模型；

③对于单个决策树模型，假设训练样本特征的个数为n，那么每次分裂时根据信息增益或信息增益比或基尼指数选择最好的特征进行分裂；

④每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝；

⑤将生成的多棵决策树组成随机森林。对于分类问题，按多棵树分类器投票决定最终分类结果；对于回归问题，由多棵树预测值的均值决定最终预测结果。

原因：

随机性的引入使得随机森林模型不容易陷入过拟合，具有很好的抗噪能力。而且随机性保证了各子模型间的多样性，子模型间差异越大，模型融合起来的效果会越好，即降低方差的效果更好。

3、举例说明AdaBoost中误差率的变化过程。

4、假设已知训练集T={(1, 5.5), (2, 6.5), (3,7.3), (4,8.5),

(5,9.3), (6, 8.9), (7, 9.2), (8, 9.5), (9,7.5), (10, 8.9)}，

试用提升树构建回归树（需满足L(y,f m (x))<0.2）。

一共进行23轮，下面就前3轮得到的回归树进行说明。

初始化.0)(0=x f

第1轮结束，.5

.383.85.343.6)(0)(,5.383

.85.343.6)(111⎩⎨⎧>≤=+=⎩⎨⎧>≤=x x x T x f x x x T 平方损失误差最小值为4.321 以2轮结束，.5.863.05.816.0)(2⎩⎨⎧≥-<=x x x T .5

.820.85.85.399.85.359.6)()()(212⎪⎩⎪⎨⎧>≤<<=+=x x x x T x f x f 平方损失误差最小值为3.332。

以3轮结束，.5.112

.05.109.1)(3⎩⎨⎧≥<-=x x x T .5

.832.85.85.311

.95.35.171.65.150.5)()()(323⎪⎪⎩⎪⎪⎨⎧>≤<<≤<=+=x x x x x T x f x f 平方损失误差最小值为2.012。

依次类推……

第1轮

划分点x=3.5(包含此点),左段均值为6.433333，右段均值为8.828571平方损失误差最小值为4.321000平方损失误差表如下，格式为y ：x(以x 为分点的情况下，平方损失误差为y)

{8.8: 1.5, 5.239: 2.5, 4.321: 3.5, 7.398: 4.5, 11.608: 5.5, 13.421: 6.5, 15.195: 7.5, 16.349:

8.5, 15.676: 9.5}

本轮后的残差表，格式为[x,y](x 点对应的残差y)

[[1, -0.933], [2, 0.067], [3, 0.867], [4, -0.329], [5, 0.471], [6, 0.071], [7, 0.371], [8,

0.671], [9, -1.329], [10, 0.071]]

第2轮

划分点x=8.5(包含此点),左段均值为0.157000，右段均值为-0.629000平方损失误差最小值为3.332000平方损失误差表如下，格式为y：x(以x为分点的情况下，平方损失误差为y)

{3.354: 1.5, 3.853: 2.5, 4.321: 3.5, 4.276: 4.5, 4.313: 5.5, 4.302: 6.5, 4.157: 7.5, 3.332: 8.5, 4.315: 9.5}

本轮后的残差表，格式为[x,y](x点对应的残差y)

[[1, -1.09], [2, -0.09], [3, 0.71], [4, -0.486], [5, 0.314], [6, -0.086], [7, 0.214], [8, 0.514], [9, -0.7], [10, 0.7]]

第3轮

划分点x=1.5(包含此点),左段均值为-1.090000，右段均值为0.121111平方损失误差最小值为2.012000平方损失误差表如下，格式为y：x(以x为分点的情况下，平方损失误差为y)

{2.012: 1.5, 2.462: 2.5, 3.227: 3.5, 2.952: 4.5, 3.168: 5.5, 3.112: 6.5, 3.207: 7.5, 3.332: 8.5, 2.788: 9.5}

本轮后的残差表，格式为[x,y](x点对应的残差y)

[[1, 0.0], [2, -0.211], [3, 0.589], [4, -0.607], [5, 0.193], [6, -0.207], [7, 0.093], [8, 0.393], [9, -0.821], [10, 0.579]]

第4轮

划分点x=9.5(包含此点),左段均值为-0.064222，右段均值为0.579000平方损失误差最小值为1.640000平方损失误差表如下，格式为y：x(以x为分点的情况下，平方损失误差为y)

{2.012: 5.5, 1.984: 2.5, 1.944: 3.5, 1.99: 4.5, 1.988: 6.5, 2.002: 7.5, 1.976: 8.5, 1.64: 9.5}

本轮后的残差表，格式为[x,y](x点对应的残差y)