基于欠采样和代价敏感的不平衡数据分类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2021‑01‑10
计算机应用,Journal of Computer Applications 2021,41(1):48-52ISSN 1001‑9081
CODEN JYIIDU http ://
基于欠采样和代价敏感的不平衡数据分类算法
王俊红1,2*,闫家荣1,
2
(1.山西大学计算机与信息技术学院,太原030006;2.计算智能与中文信息处理教育部重点实验室(山西大学),太原030006)
(∗通信作者电子邮箱wjhwjh@ )
摘要:针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的
不平衡数据分类算法——USCBoost 。

首先在AdaBoost 算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。

在10组UCI 数据集上,将USCBoost 与AdaBoost 、AdaCost 、RUSBoost 进行对比实验。

实验结果表明USCBoost 在F1-measure 和G -mean 准则下分别在6组和9组数据集获得了最高的评价指标。

可见所提算法在不平衡数据上具有更好的分类性能。

关键词:不平衡数据;分类;代价敏感;AdaBoost 算法;欠采样中图分类号:TP18
文献标志码:A
Classification algorithm based on undersampling and
cost -sensitiveness for unbalanced data
WANG Junhong 1,2*,YAN Jiarong 1,
2
(1.School of Computer and Information Technology ,Shanxi University ,Taiyuan Shanxi 030006,China ;
2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education (Shanxi University ),
Taiyuan Shanxi 030006,China )
Abstract:Focusing on the problem that the minority class in the unbalanced dataset has low prediction accuracy by
traditional classifiers ,an unbalanced data classification algorithm based on undersampling and cost -sensitiveness ,called USCBoost (UnderSamples and Cost -sensitive Boosting ),was proposed.Firstly ,the majority class samples were sorted from large weight sample to small weight sample before base classifiers being trained by the AdaBoost (Adaptive Boosting )
algorithm in each iteration ,the majority class samples with the number equal to the number of minority class samples were selected according to sample weights ,and the weights of majority class samples after sampling were normalized and a temporary training set was formed by these majority class samples and the minority class samples to train base classifiers.Secondly ,in the weight update stage ,higher misclassification cost was given to the minority class ,which made the weights of minority class samples increase faster and the weights of majority class samples increase more slowly.On ten sets of UCI datasets ,USCBoost was compared with AdaBoost ,AdaCost (Cost -sensitive AdaBoosting ),and RUSBoost (Random Under -
Sampling Boosting ).Experimental results show that USCBoost has the highest evaluation indexes on six sets and nine sets of datasets under the F1-measure and G -mean criteria respectively.The proposed algorithm has better classification performance on unbalanced data.
Key words:unbalanced data;classification;cost -sensitiveness;AdaBoost algorithm;undersampling
引言
分类是数据挖掘领域中一个重要的分支,普通的分类模
型通常假设数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等,而使用不平衡数据集训练传统的分类器会导致模型对于少数类的预测精度很低,因此不平衡数据学习一直是机器学习领域的研究热点[1]。

数据的类别不平衡主要指数据集中某类样本数量与其他类别样本数量有很大差距,而拥有较多样本数据量的类被称为多数类,拥有较少样本
数据量的类则被称为少数类。

在互联网应用方面存在着大量不平衡数据分类问题,如医疗检测[2]、欺诈识别[3]、入侵检测[4]、工业故障检测[5]等。

对于目前不平衡数据分类问题,通常的解决方法主要分为数据预处理层面和分类算法层面[6]。

数据预处理层面的方法主要思想是通过重采样技术使数据集中各个类别样本数量达到相对的平衡,主要有对多数类的欠采样[7-8],对少数类的过采样[9-10],以及结合两种采样方法的混合采样[11]。

而在算法
文章编号:1001-9081(2021)01-0048-05
DOI :10.11772/j.issn.1001-9081.2020060878
收稿日期:2020‑05‑31;修回日期:2020‑07‑22;录用日期:2020‑07‑24。

基金项目:国家自然科学基金资助项目(61772323);山西省自然科学基金资助项目(201701D121051)。

作者简介:王俊红(1979—),女,山西曲沃人,副教授,博士,CCF 会员,主要研究方向:形式概念分析、数据挖掘、粗糙集、粒计算;闫家荣(1995—),男,山西吕梁人,硕士研究生,主要研究方向:数据挖掘、机器学习。

第1期王俊红等:基于欠采样和代价敏感的不平衡数据分类算法
层面,相关研究人员通过改进算法以增加分类器对少数类的重视程度,比较有代表性的算法是代价敏感[12]、单类学习[13-14]和集成学习[15]等。

本文重点关注基于集成学习的不平衡数据分类算法的研究进展。

集成学习主要思想是将学习得到的多个子分类模型通过一定方式组合,从而得到一个泛化能力更好的强分类器。

其中Bagging和Boosting是机器学习中应用最广泛的集成学习技术,Boosting虽然不是为处理不平衡数据设计的,但却可以有效提高分类器对于不平衡数据的分类性能。

Freund等[16]提出的自适应增强(Adaptive Boosting,AdaBoost)算法是最常用的
Boosting算法。

目前基于集成学习方法的不平衡数据分类算法中主要分为将数据重采样技术与集成算法结合和将代价敏感思想与集成算法相结合。

将数据预处理与集成方法结合主要是在训练基分类器之前对数据样本使用重采样技术。

Chawla等[17]提出了一种将过采样技术与集成学习结合的算法SOMTEBoost(Synthetic Minority Over-sampling TEchnique Boosting),该算法基于AdaBoost.M2[18]算法,通过每次迭代中使用合成少数类过采样技术(Synthetic Minority Over-sampling TEchnique,SMOTE)对少数类过采样,从而获得较为平衡的数据。

算法通过将SMOTE算法和AdaBoost算法的结合,有效改善了分类器的性能,其结果优于单独使用SMOTE和AdaBoost 算法。

但SMOTEBoost算法在训练过程中由于过采样生成了更多的数据,当样本容量很大时,时间复杂度会增加。

因此Seiffert等[19]在2010年提出了RUSBoost(Random Under-Sampling Boosting)算法,它与SOMTEBoost算法相似,该算法在迭代中使用了随机欠采样技术,使用更少的数据集训练弱分类器,在提升不平衡数据集分类性能的同时降低了训练的时间复杂度,在处理样本容量较大的分类问题中更具优势。

Rayhan等[20]提出了CUSBoost(Cluster-based Under-Sampling with Boosting)算法,该算法首先使用K均值聚类(K-Means Clustering,KMC)算法对多数类进行聚类,然后在每次迭代中对每个聚类子簇中的数据随机下采样,得到平衡的数据集。

该算法虽然在下采样之后可以获得更具代表性的多数类样本,但对多数类进行聚类时,会消耗大量的时间。

Feng等[21]通过将间隔理论与集成技术结合,提出了基于间隔理论的不平衡数据分类算法,算法在采样时使用信息量更大的低间隔样本,从而获得更高的预测精度。

陈圣灵等[22]通过将SMOTE 算法和集成学习思想相结合,提出了一种基于更新样本权重的不平衡数据学习算法,算法通过重采样从而间接地更新样本权重,有效提高算法模型少数类识别能力。

将代价敏感与集成方法结合最具代表性的方法是Fan等[23]提出的代价敏感集成(Cost-sensitive AdaBoosting,AdaCost)算法,算法主要通过修改样本错分代价,使得AdaBoost采用不同的策略更新不同错分代价的样本权重。

基于此,本文从数据预处理层面出发,并将代价敏感思想引入AdaBoost算法的权重更新公式,提出一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost (UnderSamples and Cost-sensitive Boosting),算法旨在对多数类样本进行欠采样,并将代价矩阵引入到权重更新公式中,使得错分少数类的样本权重增加更快。

使用UCI库中的数据集对本文算法进行实验分析,结果表明USCBoost算法与其他对比算法相比,在F1-measure值和G-mean值上有了显著提高,该算法处理不平衡数据分类具有一定可行性。

1相关工作
1.1AdaBoost算法
AdaBoost作为Boosting技术的代表算法,近年来被相关学者广泛研究和使用。

该算法主要通过更新样本权值,使基分类器在每次迭代中更加注重分错的样本,对这一部分样本进行着重训练,最后将每次迭代训练的基分类器加权组合。

假如数据集样本数量为N,算法在第一轮迭代时赋予所有训练样本相同的权重1/N;然后学习基分类器。

对于训练集中的样本数据,假如样本被此次学习的基分类器分类错误,这个样本权值将会增加;反之,被基分类器分类正确的样本权值会被降低。

因此在下次迭代训练的基分类器会更加着重学习上次被分错的数据。

最后将每次迭代训练的基分类器根据权值线性相加。

AdaBoost算法执行步骤如下。

算法1AdaBoost算法。

输入:训练数据集S={(x1,y1),(x2,y2),⋯,(x i,y i)|i= 1,2,⋯,N,y i∈{1,-1}},T为迭代次数,g为基分类器;
输出:G(x)=sign()
∑t=1Tαt g t(x i)。

1)初始化样本分布权重。

D1=(w11,w12,⋯,w1n);w1i=1/n,i=1,2,⋯,n。

2)For t=1to T
a)根据训练数据的权值分布D t的训练基分类器g t(x i)。

b)计算g t(x i)在训练集上的分类误差:
e t=∑i=1N w ti I(g t(x i)≠y i)
c)计算弱分类器在最终分类器中所占权重:
αt=12ln
()1-e t e t
d)更新样本的权值分布:D t+1=D t(i)exp(-αt y i g t(x i))
Z t,
Z
t
为归一化因子。

3)组合基分类器:G(x)=sign()
∑t=1Tαt g t(x i)。

1.2决策树生成算法
决策树(Decision Tree)有着可解释性强、运行速度快等优点,集成学习中经常使用具有较小深度的决策树作为基本分类器。

本文中构建的集成模型使用CART(Classification And Regression Tree)算法生成基本分类器。

CART是一种常见的决策树生成算法,该算法采用Gini 系数作为评价最优划分特征的指标。

假如样本集合Gini值越小,数据集中样本属于同一类别的概率越高。

对于样本集合D,Gini系数计算公式如下:Gini(D)=1-∑k=1K()||C k||D2(1)其中:K为样本集合D中类别数量,C k为第k类的样本数量。

特征A上样本集合D的基尼系数计算公式如下:
Gini(D,A)=
||D1
|
|D
Gini(D1)+
||D2
|
|D
Gini(D2)(2)其中:D1和D2为使用特征值A上的某一特征值将数据集划分后形成的两个子集。

49
第41卷
计算机应用2
基于欠采样和代价敏感的不平衡数据分类
算法
从AdaBoost 算法的相关研究可知,由于多数类在不平衡
数据集中占有着很大的比例,使得传统AdaBoost 算法在迭代过程中更加着重训练占比更大的多数类数据,而忽略了不平衡数据集中的少数类数据,导致最终算法模型的分类决策面会偏向少数类。

而在集成算法每次迭代中,被分类正确的多数类样本权值会降低,对于下次弱分类器的性能影响变小,因此可以对于这部分权值低的多数类样本欠采样;但是由于欠采样之后的多数类样本中仍然存在大量权重高的多数类样本,为了使少数类样本在训练中进一步得到重视,将代价敏感的思想引入样本权重更新公式,赋予少数类更高的样本权重,使得分错的少数类样本权重增加更快。

本文算法在每次迭代训练弱分类器之前根据采样率选取权重较大的多数类样本并和所有少数类样本组成临时训练集;在样本权重调整阶段,本文采用了AdaCost 算法中样本权重更新的策略,将代价调整函数β引入到权重更新公式中。

β函数的计算公式如下:
{
β+(c )=-0.5c +0.5β-(c )=0.5c +0.5
(3)
其中:
β+为模型预测正确时的β函数,β-为模型预测错误时的β函数,c 为样本的错分代价。

综上所述,本文首先通过欠采样删除了大量对分类器贡献不大的多数类样本,降低了训练基分类器的时间复杂度,继而在样本更新时通过引入代价调整函数使得误分代价高的样本在每次迭代中权重增加更快,使得下次迭代时基分类器更加注重错分的少数类样本。

本文集成算法步骤如下。

算法2
USCBoost 算法。

输入:训练数据集:S ={(x 1,
y 1),(x 2,y 2),⋯,(x i ,y i )|i =1,2,⋯,N ,y i ∈{1,-1}},T 为迭代次数,g 为基分类器;
输出:G (x )=sign
()

t =1
T αt g t (x i )。

1)统计多数类和少数类的样本数量n 和m 。

2)计算采样率:r =m /n ,和样本错分代价:
C i (y i =-1)=m /N ,C i (y i =1)=n /N 。

3)初始化样本分布权重D 1=(w 11,w 12,⋯,w 1n );w 1i =1/n ,i =1,2,⋯,n 。

4)For t =1to T :
a )if t =1对多数类进行随机欠采样,采样率为r 。

else
对多数类样本权重由大到小排序,选择前n *r 个样本。

b )将采样之后的样本与少数类样本合并成临时训练集S t '。

并得到S t '中的样本权值D t ',将D t '归一化。

c )使用临时数据集以及它们的权值D t '训练基分类器g t (x )。

d )计算基分类器在原始训练集S 上的分类误差
e t =∑i =1
N
w ti I (g t (x i )≠y i )。

e )计算基分类器在最终分类器中所占权重αt =
12
ln ()
1-e t e t 。

f )计算权重调整因子βi =-0.5(y i
g t (x i ))C i +0.5。

g )更新样本的权值分布:D t +1=D t (i )exp (-αt y i g t (x i )βi )
Z t
,Z t
为归一化因子。

5)组合基分类器:G (x )=sign
(
)
∑t =1
T
αt g t (x i )。

3实验结果与分析
3.1
评价标准
在数据不平衡的分类任务中,通常使用准确率、召回率、
F 1-measure 值等当作模型的性能度量指标。

二分类问题混淆矩阵如表1所示。

其中:TP (True Positive )为正例样本分类正确时的情况;FP (False Positive )为反例样本被分类错误的情况;FN (False Negative )为正例样本被分类错误的情况;TN (True Negative )为反例样本分类正确的情况。

1)准确率(Accuracy )表示分对的样本数除以所有的样本
数,计算公式如式(4):
Accuracy =TP +TN
TP +TN +FN +FP
(4)
2)查准率(Precision )表示被分为正例的示例中实际为正例的比例,计算公式如式(5):
Precision =TP
TP +FP
(5)
3)召回率(Recall )为分类正确的正例样本与所有正例样本的比值,用来度量算法识别正例样本的能力。

计算公式如式(6):
Recall =
TP
TP +FN
(6)
4)特异度为分类正确的反例样本与所有反例样本的比值,用来度量算法识别反例样本的能力。

计算公式如式(7):
Specificity =TN
TN +FP
(7)
5)F 1-measure 表示Precision 和Recall 加权调和平均值,计算公式如式(8):
F 1‑measure =
2×Precision ×Recall
Precision +Recall
(8)
6)G -mean 值表示召回率和特异度的几何平均值,如式(9):
G ‑mean =
Recall ×Specificity
(9)
本实验中采用准确率、F 1-measure 值、G -mean 值作为衡量算法性能的评价指标。

3.2
数据集描述
为了衡量本文提出的USCBoost 算法的性能,使用UCI 中标准数据库10组数据集训练分类器并对实验结果进行分析。

实验数据集的不平衡度(Imbalance Ratio ,IR )从1.8到24。

其中有的数据中为多分类数据集,本实验将这些数据集中的
表1
混淆矩阵
Tab.1
Confusion matrix 真实情况
正类样本
负类样本
预测结果
正类样本TP FP 负类样本FN TN
50
第1期王俊红等:基于欠采样和代价敏感的不平衡数据分类算法
某些类别合并成二分类数据集。

例如在Ecoli 数据集中,样本分为8类,Ecoli_5表示将数据集中类别为5的样本作为少数类,并将剩余其他类别的样本合成多数类。

实验数据集信息如表2。

3.3
实验设计与结果分析
本实验中所有算法采用五折交叉验证方法,实验中对比
算法为AdaBoost 算法、AdaCost 算法和RUSBoost 算法。

其中
RUSBoost 算法采用C4.5生成基分类器,其余集成算法采用CART 生成基分类器,所有决策树的深度为5,算法的基分类器数都为10。

实验分析了4种算法的准确率、F 1-measure 值、G -mean 值。

表3列举了本文算法和其他3种对比算法在各数据集下的评价指标值,其中加粗的数值为最高的评价指标值。

从实验对比结果可以看出,相比传统的AdaBoost 算法,本文提出的算法在大部分数据集上准确率提高并不明显,而且在有的数据集上会降低。

说明算法在提高少数类分类准确率的同时可能会降低多数类的准确率。

F 1-measure 值和
G -mean 值更能够衡量不平衡数据分类算法的性能。

由表3可以看出USCBoost 算法与其他算法相比,在大部分数据集上都具有明显的优势,在vowel_3和anneal_1_2数据集上本文算法的F 1-measure 值略小于AdaBoost 算法,这是因为样本的减少可能会导致精度的损失;但在Letter_2数据集中,本文算法的F 1-measure 值与AdaBoost 算法差距较大,这是由于在高度不平衡的数据中,少数类样本只占到总样本数的很少一部分,当对多数类样本欠采样到少数类样本的数量时,可能会删除掉很多潜在的有价值的多数类样本,此时可以通过适当地提高多数类的采样率或对少数类进行过采样操作,保留有价值的样本。

但本文算法在和使用随机欠采样的RUSBoost 算法比较,在letter_2数据集上F 1-measure 值有显著的提高,这是因为本文算法在每次迭代中欠采样后得到的是权重高的样本,而这些样本对于基分类器的影响更大。

为了更直观地对比4种算法,图1、2展示了对比算法和
USCBoost 算法在10个数据集上的实验结果,可以看出本文算法处理不平衡数据具有一定优势。

4
结语
本文通过对不平衡数据分类在传统AdaBoost 算法中存在
的问题进行研究:在集成算法的每次迭代学习中根据样本权重对多数类欠采样,挑选出贡献大的样本训练基分类器;在权
重调整阶段,通过调整样本误分代价,使得误分代价高的样本权重将会增加更快,从而使少数类样本在下次训练中被重视。

表2
实验数据集描述
Tab.2
Experimental datasets description
数据集pima
german
breast_cancer page_1_3vowel_l_3segment_5anneal_1_2Ecoli_5page_0_1letter_2
总样本数76810002774178712310783336524220000
属性820910319383431016
多数类样本数5007001963296991980684301491319211
少数类样本数26830081881723309935329789
IR
1.87
2.332.41
3.74
4.066.006.918.6014.9324.34
表3
不同分类算法在不平衡数据集上的分类准确率、F 1-measure 值、G -mean 值对比
Tab.3Classification accuracy ,F 1-measure and G -mean comparison of different classification algorithms on unbalanced datasets dataset pima german
breast_cancer page_1_3vowel_3segment_5anneal_1_2Ecoli_5page_0_1letter_2
accuracy
Ada_
Boost
0.72130.75400.66760.97590.95630.99560.99610.93130.98640.9976
Ada_Cost 0.72920.66500.59170.98070.93100.99610.99610.91950.97950.9724RUS_
Boost 0.74350.69900.63510.95920.94140.99220.98340.80970.95760.9459USC_
Boost 0.75790.71700.66760.98070.94600.99740.99610.92540.98530.9920
F 1-measure 值
Ada_
Boost 0.57420.55930.35430.94680.88580.98480.98430.62560.88800.9693
Ada_Cost 0.65520.57770.48160.95580.84510.98650.98340.67750.85310.7407RUS_
Boost 0.66330.58060.46840.89490.86120.97290.93460.45340.73440.5767USC_
Boost 0.67650.59810.49260.95520.87350.99080.98340.72470.88970.9062G -mean 值
Ada_
Boost 0.66550.66720.50210.96840.91730.98870.99780.72530.92990.9807Ada_Cost 0.73160.68800.60820.97160.93250.99150.99780.87300.96730.9842RUS_
Boost 0.73830.69790.60410.93140.93440.98670.97110.77740.94370.9372
USC_
Boost 0.75100.71180.62780.97100.94300.99590.99780.88110.96750.9952
图1
4种算法的F 1-measure 值对比
Fig.1
F 1-measure comparison of four
algorithms
图2
4种算法的G -mean 值对比
Fig.2
G -mean comparison of four algorithms
51
第41卷计算机应用
算法在保证模型不平衡分类性能的同时,降低了训练分类模型的时间复杂度。

然而,本文算法继承了AdaBoost对噪声敏感的缺点,如何在训练过程中保证预测精度的同时降低噪声数据对模型的影响,将是未来重点研究方向。

参考文献(References)
[1]ZOU Q,XIE S,LIN Z,et al.Finding the best classification threshold in imbalanced classification[J].Big Data Research,2016,5:2-8.
[2]SHILASKAR S,GHATOL A,CHATUR P.Medical decision support system for extremely imbalanced datasets[J].Information Sciences,2017,384:205-219.
[3]ZAKARYAZAD A,DUMAN E.A profit-driven Artificial Neural Network(ANN)with applications to fraud detection and direct marketing[J].Neurocomputing,2016,175:121-131. [4]ZHONG W,RAAHEMI B,LIU J.Classifying peer-to-peer applications using imbalanced concept-adapting very fast decision tree on IP data stream[J].Peer-to-Peer Networking and Applications,2013,6(3):233-246.
[5]WANG F,XU T,TANG T,et al.Bilevel feature extraction-based text mining for fault diagnosis of railway systems[J].IEEE Transactions on Intelligent Transportation Systems,2017,18(1):49-58.
[6]李艳霞,柴毅,胡友强,等.不平衡数据分类方法综述[J].控制与
决策,2019,34(4):673-688.(LI Y X,CHAI Y,HU Y Q,et al. Review of imbalanced data classification methods[J].Control and Decision,2019,34(4):673-688.)
[7]TOMEK I.Two modifications of CNN[J].IEEE Transactions on Systems,Man,and Cybernetics,1976,SMC-6(11):769-772. [8]吴园园,申立勇.基于类重叠度欠采样的不平衡模糊多类支持向
量机[J].中国科学院大学学报,2018,35(4):536-543.(WU Y Y,SHEN L Y.Imbalanced fuzzy multiclass support vector machine algorithm based on class-overlap degree undersampling[J].Journal of University of Chinese Academy of Sciences,2018,35(4):536-543.)
[9]CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[10]HE H,BAI Y,GARCIA E A,et al.ADASYN:adaptive
synthetic sampling approach for imbalanced learning[C]//
Proceedings of the2008IEEE International Joint Conference on
Neural Networks(IEEE World Congress on Computational
Intelligence).Piscataway:IEEE,2008:1322-1328. [11]BATISTA G E A P A,PRATI R C,MONARD M C.A study of
the behavior of several methods for balancing machine learning
training data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.
[12]DHAR S,CHERKASSKY V.Development and evaluation of cost-
sensitive universum-SVM[J].IEEE Transactions on Cybernetics,2015,45(4):806-818.
[13]MALDONADO S,MONTECINOS C.Robust classification of
imbalanced data using one-class and two-class SVM-based
multiclassifiers[J].Intelligent Data Analysis,2014,18(1):
95-112.
[14]DUFRENOIS F.A one-class kernel fisher criterion for outlier
detection[J].IEEE Transactions on Neural Networks and
Learning Systems,2015,26(5):982-994.
[15]GALAR M,FERNÁNDEZ A,BARRENECHEA E,et al.A
review on ensembles for the class imbalance problem:Bagging-,Boosting-,and hybrid-based approaches[J].IEEE Transactions
on Systems,Man and Cybernetics,Part C(Applications and
Reviews),2012,42(4):463-484.
[16]FREUND Y,SCHAPIRE R E.A decision-theoretic generalization
of on-line learning and an application to Boosting[J].Journal of
Computer and System Sciences,1997,55(1):119-139. [17]CHAWLA N V,LAZAREVIC A,HALL L O,et al.
SMOTEBoost:improving prediction of the minority class in
Boosting[C]//Proceedings of the2003European Conference on
Principles of Data Mining and Knowledge Discovery,LNCS2838.
Berlin:Springer,2003:107-119.
[18]FREUND Y,SCHAPIRE R E.Experiments with a new boosting
algorithm[C]//Proceedings of the13th International Conference on
Machine Learning.San Francisco,CA:Morgan Kaufmann
Publishers Inc.,1996:148-156.
[19]SEIFFERT C,KHOSHGOFTAAR T M,VAN HULSE J,et al.
RUSBoost:a hybrid approach to alleviating class imbalance[J].
IEEE Transactions on Systems,Man,and Cybernetics-Part A:Systems and Humans,2010,40(1):185-197.
[20]RAYHAN F,AHMED S,MAHBUB A,et al.CUSBoost:cluster-
based under-sampling with boosting for imbalanced classification [C]//Proceedings of the2nd International Conference on
Computational Systems and Information Technology for Sustainable
Solution.Piscataway:IEEE,2017:1-5.
[21]FENG W,HUANG W,REN J.Class imbalance ensemble
learning based on the margin theory[J].Applied Sciences,2018,8(5):Article No.815.
[22]陈圣灵,沈思淇,李东升.基于样本权重更新的不平衡数据集成
学习方法[J].计算机科学,2018,45(7):31-37.(CHEN S L,SHEN S Q,LI D S.Ensemble learning method for imbalanced
data based on sample weight updating[J].Computer Science,2018,45(7):31-37.)
[23]FAN W,STOLFO S J,ZHANG J,et al.AdaCost:
misclassification cost-sensitive boosting[C]//Proceedings of the
16th International Conference on Machine Learning.San
Francisco,CA:Morgan Kaufmann Publishers Inc.,1999:97-105.
This work is partially supported by the National Natural Science Foundation of China(61772323),the Natural Science Foundation of Shanxi Province(201701D121051).
WANG Junhong,born in1979,Ph.D.,associate professor.Her research interests include formal concept analysis,data mining,rough set,granular computing.
YAN Jiarong,born in1995,M.S.candidate.His research interests include data mining,machine learning.
52。

相关文档
最新文档