一种基于聚类约简决策树的改进随机森林算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract: Numerous decision tree models are established to improve classification accuracy of traditional
random forest algorithm. Due to the complexity of the training data set and the randomness introduced by traditional random forest, many decision trees with poor classification performance and high similarity are generated during the training process, which affect the ensemble classification performance of the model. In order to solve this problem, an improved random forest algorithm ( Trees Clustering Random Forest, TCRF) using clustering to decrease decision trees is proposed to remove the unqualified decision tree from the point of classification accuracy and similarity. According to the AUC value, the relatively high ac curacy sub-forest is extracted from the original forest, and the sub-forest is clustered by using the distance measurement method based on Kappa statistics, the representative trees are selected from the divided clus ters to form a forest with high accuracy and low similarity. The experimental results show that the improved algorithm is higher than the traditional random forest algorithm in ensemble accuracy and classification ef ficiency.
92
南京邮电大学学报(自然科学版)
2019 年
传统的单分类器模型存在精度不高,容易出现 拟合等问题。因此,一些学者提出将多个从相同数 据中学习的模型的预测结果组合来提高分类准确 率,这些方法称为集成(ensemble)方法或分类器组 合(classifier combination )方法。在大多数情形下, 与单个模型相比,集成模型能使预测性能有所 提高「j O
随机森林⑵是一种基于决策树的集成分类算
法,由于其出色的性能受到许多学者的关注,它克服 了决策树过拟合问题,对不平衡样本、噪声和异常值 有较好的容忍性,预测准确率较高,被广泛应用在金 融决策⑶、负载预测⑷、生物信息⑸、图像分类⑷、 信息检索F和市场销售⑻等领域。
差和相似度较高的决策树,影响模型的整体分类性能。针对这个问题,提出一种基于决策树聚类的
改进随机森林算法(Trees Clustering Random Forest,TCRF),从分类精度和相似性角度去除不合格
的决策树,根据AUC值从原始森林中提取出相对高精度子森林,利用基于Kappa统计量的距离度
Vol. 39 No. 3 Jun. 2019
一种基于聚Βιβλιοθήκη Baidu约简决策树的改进随机森林算法
王诚,王凯
(南京邮电大学通信与信息工程学院,江苏南京210003)
摘要:传统随机森林算法为了提高分类准确率,常常需要构建大量的决策树模型。由于训练数据集
的复杂性以及传统随机森林在构建过程中引入的随机性,算法在训练过程中会生成部分分类性能
量方法对子森林聚类,从划分出的簇中选取具有代表性的树组成高精度低相似的森林。实验结果
证明:改进后的算法在集成准确率以及分类效率上要高于传统随机森林算法 。
关键词:随机森林;分类精度;相似性;聚类
中图分类号:TP301
文献标志码:A 文章编号:1673-5439(2019)03-0091-07
An improved random forest algorithm based on decision trees clustering reduction
第39卷第3期 2019年6月
南京邮电大学学授(自然科学版)
Journal of Nanjing University of Posts and Telecommunications ( Natural Science Edition)
doi :10. 14132/j. cnki. 1673-5439. 2019. 03.013
WANG Cheng,WANG Kai
(College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications, Nanjing 210003 ,China)
Keywords: random forest ; classification accuracy; similarity; clustering
收稿日期:2019-03-15 本刊网址:http: //nyzr. njupt. edu. cn 作者简介:王诚,男,副教授,wangc@ njupt. edu. cn 引用本文:王诚,王凯•一种基于聚类约简决策树的改进随机森林算法[J]•南京邮电大学学报(自然科学版),2019,39(3):91 -97.
random forest algorithm. Due to the complexity of the training data set and the randomness introduced by traditional random forest, many decision trees with poor classification performance and high similarity are generated during the training process, which affect the ensemble classification performance of the model. In order to solve this problem, an improved random forest algorithm ( Trees Clustering Random Forest, TCRF) using clustering to decrease decision trees is proposed to remove the unqualified decision tree from the point of classification accuracy and similarity. According to the AUC value, the relatively high ac curacy sub-forest is extracted from the original forest, and the sub-forest is clustered by using the distance measurement method based on Kappa statistics, the representative trees are selected from the divided clus ters to form a forest with high accuracy and low similarity. The experimental results show that the improved algorithm is higher than the traditional random forest algorithm in ensemble accuracy and classification ef ficiency.
92
南京邮电大学学报(自然科学版)
2019 年
传统的单分类器模型存在精度不高,容易出现 拟合等问题。因此,一些学者提出将多个从相同数 据中学习的模型的预测结果组合来提高分类准确 率,这些方法称为集成(ensemble)方法或分类器组 合(classifier combination )方法。在大多数情形下, 与单个模型相比,集成模型能使预测性能有所 提高「j O
随机森林⑵是一种基于决策树的集成分类算
法,由于其出色的性能受到许多学者的关注,它克服 了决策树过拟合问题,对不平衡样本、噪声和异常值 有较好的容忍性,预测准确率较高,被广泛应用在金 融决策⑶、负载预测⑷、生物信息⑸、图像分类⑷、 信息检索F和市场销售⑻等领域。
差和相似度较高的决策树,影响模型的整体分类性能。针对这个问题,提出一种基于决策树聚类的
改进随机森林算法(Trees Clustering Random Forest,TCRF),从分类精度和相似性角度去除不合格
的决策树,根据AUC值从原始森林中提取出相对高精度子森林,利用基于Kappa统计量的距离度
Vol. 39 No. 3 Jun. 2019
一种基于聚Βιβλιοθήκη Baidu约简决策树的改进随机森林算法
王诚,王凯
(南京邮电大学通信与信息工程学院,江苏南京210003)
摘要:传统随机森林算法为了提高分类准确率,常常需要构建大量的决策树模型。由于训练数据集
的复杂性以及传统随机森林在构建过程中引入的随机性,算法在训练过程中会生成部分分类性能
量方法对子森林聚类,从划分出的簇中选取具有代表性的树组成高精度低相似的森林。实验结果
证明:改进后的算法在集成准确率以及分类效率上要高于传统随机森林算法 。
关键词:随机森林;分类精度;相似性;聚类
中图分类号:TP301
文献标志码:A 文章编号:1673-5439(2019)03-0091-07
An improved random forest algorithm based on decision trees clustering reduction
第39卷第3期 2019年6月
南京邮电大学学授(自然科学版)
Journal of Nanjing University of Posts and Telecommunications ( Natural Science Edition)
doi :10. 14132/j. cnki. 1673-5439. 2019. 03.013
WANG Cheng,WANG Kai
(College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications, Nanjing 210003 ,China)
Keywords: random forest ; classification accuracy; similarity; clustering
收稿日期:2019-03-15 本刊网址:http: //nyzr. njupt. edu. cn 作者简介:王诚,男,副教授,wangc@ njupt. edu. cn 引用本文:王诚,王凯•一种基于聚类约简决策树的改进随机森林算法[J]•南京邮电大学学报(自然科学版),2019,39(3):91 -97.