一种自适应核SMOTE-SVM_算法用于不平衡数据分类

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第50卷第2期
2023年
北京化工大学学报(自然科学版)
Journal of Beijing University of Chemical Technology (Natural Science)
Vol.50,No.2
2023
引用格式:吴海燕,陈晓磊,范国轩.一种自适应核SMOTE -SVM 算法用于不平衡数据分类[J].北京化工大学学报(自然科学
版),2023,50(2):97-104.
WU HaiYan,CHEN XiaoLei,FAN GuoXuan.An adaptive kernel SMOTE -SVM algorithm for imbalanced data classifica⁃tion[J].Journal of Beijing University of Chemical Technology (Natural Science),2023,50(2):97-104.
一种自适应核SMOTE -SVM 算法用于不平衡
数据分类
吴海燕　陈晓磊　范国轩
(北京化工大学信息科学与技术学院,北京　100029)
摘　要:面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling tech⁃nique⁃support vector machine,SMOTE -SVM)分类算法㊂首先通过支持向量机将数据集投影到核空间,找出类边界样本支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV +)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本㊂由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram 矩阵,最终利用SVM 实现分类㊂该算法中样本生成㊁近邻计算以及SVM 分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性㊂在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性㊂关键词:不平衡数据分类;人工合成过采样技术(SMOTE);核空间;支持向量机
中图分类号:TP181 DOI :10.13543/j.bhxbzr.2023.02.012
收稿日期:2021-08-19
第一作者:女,1980年生,副教授E⁃mail:whyan@
引　言
不平衡数据是指样本集中某类样本的数目远远小于其他类样本数目的数据集(通常将少数类样本称为正类样本,多数类样本称为负类样本)[1]㊂不平衡数据问题存在于诸多生产生活领域中,如通讯欺诈检测
[2]
㊁医学诊断
[3]
㊁工业故障检测
[4]
等等㊂
传统分类算法通常以类分布大致相等为前提,因此当数据集类别分布不均衡时,易使分类器的决策边界偏移,导致漏判,即将正类样本错分为负类样本
[5]
㊂而在实际应用中,对正类样本的错误分类往
往会产生更严重的后果,如将工业故障误判为正常或在医疗诊断中将患病判断为正常㊂因此,面对数据不平衡问题,改善不平衡数据的分类性能,特别是提高正类样本的识别精度十分必要㊂
学者们对于不平衡数据分类问题进行了诸多研究,主要分为从数据层面和从分类器层面两类
[5]
㊂
其中从数据层面又主要分为对正类样本进行过采样和对负类样本进行欠采样两种方式㊂由于欠采样方式可能会损失数据特征[1],因此采取对正类样本进行过采样获得平衡样本集再进行分类的研究思路更
为常见㊂Chawla 等[6]提出的人工合成过采样技术(synthetic minority oversampling technique,SMOTE)是最为广泛引用和应用的过采样方法之一㊂SMOTE 算法通过增加正类样本实现数据平衡,方法简单易行且可有效提高分类器的性能,因而成为研究热点㊂后续学者在SMOTE 基础上又作了诸多改进,如提出了SMOM(SMOTE for multiclass classifica⁃tion)算法,其通过为负类样本分配不同权重来改善SMOTE 的过泛化问题[7];G -SMOTE (geometric SMOTE)算法则通过在每个选定的少数类样本周围的几何区域内人工生成样本,以达到增强数据生成机制的目的[8]㊂从分类器层面,支持向量机(sup⁃port vector machine,SVM)分类器是经典的非线性分类器,在诸多应用中都能够取得较好的分类结果[9-10]㊂为解决不平衡数据分类问题,人们将SMOTE 与SVM 相结合,取得了多种研究成果㊂
Deepa等[11]提出不平衡高维数据支持向量机分类方法,对正㊁负样本集分别单独作过采样处理,再将其映射到特征空间进行SVM训练并得到决策函数㊂Zhang等[12]在实验中将基于SVM的重采样特征消除(resampling feature elimination based on SVM,SVM-RFE)㊁基于SVM的边界重采样特征消除(border⁃re⁃sampling feature elimination based on SVM,SVM-BRFE)算法分别与SMOTE相结合,较好地解决了高维问题对分类结果的负面影响㊂Zhou等[13]提出用SMOTE结合TomekLinks算法获得平衡集,再使用决策树进行特征提取,最后用SVM进行分类的方法㊂以上这些方法在处理不平衡数据问题上都取得了相对较好的效果㊂然而,SMOTE在生成样本时采用的是线性插值方法,当用于解决非线性分类问题时生成样本的可靠性无法衡量㊂如当SMOTE与SVM联合使用时,SMOTE算法工作在输入空间, SVM工作在核空间㊂前者通过线性插值获得的新样本投影到核空间中用于分类时,算法的分类性能可能会因为两者工作空间不一致而受到影响㊂此外,在样本集中边界样本对分类面的构建起到决定性影响,因此在样本生成时可只考虑边界样本以减少计算量㊂
鉴于上述问题,本文提出一种自适应核SMOTE-SVM不平衡数据分类算法㊂该算法利用SVM找到训练集的边界样本支持向量(SV),在核空间下对其进行自适应内外插值,将新插入的样本与原有样本的表示式一同计算形成增广Gram矩阵,再利用SVM算法生成分类决策函数,从而实现分类㊂该算法使样本的生成与分类统一在同一核空间中,增强了新样本集的可信性;同时内外插值的方式提高了新样本的多样性㊂通过在多个数据集上进行实验,结果表明了所提算法可以有效改善不平衡数据的分类效果㊂
1　SMOTE算法与SVM算法
1.1　SMOTE算法
SMOTE算法通过将正类样本与其邻近的正类样本之间随机线性插值合成新样本,整个计算过程在输入空间中完成[6]㊂假设有训练样本集S,其中正类样本集S min∈S,负类样本集S max∈S㊂对于正类中的每一个样本x i∈S min,其k个近邻的同类样本为~X={~x i,~x j, ,~x k},k是人为设定的正整数㊂SMOTE 将x i与每个~x j(j=1,2, ,k)∈~X合成一个新样本,得到合成样本集S*min㊂SMOTE合成新样本采用线性插值方式
x new=x i+δ×(~x j-x i)(1)式中,δ是(0,1)之间的一个随机数,新样本标签与正类样本标签一致㊂
1.2　SVM算法
SVM算法自诞生以来已在诸多应用领域中取得了良好的分类结果,它是一种经典的分类算法,本质是求解一个满足分类要求的最优超平面,该超平面既要保证分类精度又要保证到其最近样本的距离间隔最大㊂给定样本集S={(x1,y1),(x2,y2), , (x N,y N)},其中x1,x2, ,x N∈R m,y1,y2, ,y N∈{-1,+1}㊂则超平面记为w㊃x i+b=0,其中参数w代表权值向量,参数b代表阈值㊂非线性SVM通过解决以下凸优化问题来求解最优超平面min w,b,ξ12w T w+C∑N i=1ξi(2) s.t.y i(w Tφ(x i)+b)≥1-ξi,ξi≥0
式中,φ(㊃)为将输入样本点映射到高维特征空间的函数,ξi为松弛因子,C为惩罚系数㊂
通过将目标函数公式(2)转化为其Lagrange对偶形式求解
maxα∑N i=1αi-12∑N i=1∑N j=1αiαj y i y j K(x i,x j)(3) s.t.∑N i=1αi y i=0,0≤αi≤C
式中,αi为Lagrange乘子,核函数K(x i,x j)=φ(x i)Tφ(x j)为x i㊁x j特征空间下的内积㊂运用此核计算公式,整个过程只需计算特征空间中样本的内积,无需对生成点作繁琐的显式映射㊂
通过式(3)计算出最优Lagrange乘子α*i,进而求得超平面参数w㊁b㊂
最终决策函数为
f(x){=sgn∑N i=1α*i K(x,x i)+}b(4)其中sgn{㊃}为阶跃函数㊂待测样本x通过式(4)的决策函数实现分类㊂其中,支持向量即为α*i中非零解所对应的样本㊂由此可知,支持向量集组成了分类边界样本集㊂
为处理不平衡数据分类问题,许多SMOTE-SVM方法先通过SMOTE对不平衡数据集进行预处理,得到平衡的数据集,再结合SVM实现样本分类㊂
㊃89㊃北京化工大学学报(自然科学版) 2023年
这种先得到平衡集再利用SVM 分类的处理方式可以在一定程度上改善分类面偏移的问题,但也存在生成空间与分类空间不一致的情况㊂为解决此问题,提高不平衡样本集的分类准确率,本文提出一种自适应核SMOTE -SVM 算法㊂
2　自适应核SMOTE -SVM 分类算法
2.1　算法流程
SMOTE -SVM 算法主要分为两个部分:第一部
分基于自适应核SMOTE 算法,用于新样本生成;第二部分基于增广Gram 矩阵获得决策函数㊂算法流程如图1所示㊂算法前半部分根据少数类样本集的支持向量(SV +)在核距离下的近邻样本的分布情况,设计内插或外推方法进行新样本生成㊂算法后半部分考虑到无法在核空间内获得新样本的显式表达,因此构造增广Gram 矩阵,基于SVM 分类算法获得分类决策函数,最终实现分类
㊂
图1　算法流程图
Fig.1　Algorithm flow chart
2.2　自适应核SMOTE 过采样
自适应核SMOTE 算法以正类样本的支持向量作为依据合成新样本,这是因为支持向量可以看作核空间中的边界样本,而边界样本对分类面的构建至关重要㊂
算法具体步骤如下㊂
1)利用SVM 分类器得到S min 的支持向量SV +㊂2)基于核距离找出SV +在S 中的k 个近邻,核距离计算方法为
d φ
(x i ,x j )2
=‖φ(x i )-φ(x j )‖2
=K (x i ,x i )-2K (x i ,x j )+K (x j ,x j )
(5)
式中,x i ,x j 是SV +中任意一点㊂需要指出的是在
本算法所有核映射的运算中应采用统一核函数,保证样本生成和分类统一在同一核空间中㊂3)根据SV +中x i 的k 近邻类别属性选择新样本的生成方式,即内插或外推㊂
设x i 所在的k 个近邻样本中,多数类样本的个数为m ㊂若m =k ,认为x i 为噪声样本,重新标记;若m >k /2,对x i 进行内插值,如图2(b)中1处所示;若m <k /2,对x i 进行外插值,如图2(b)中2处所示㊂该方法实质是基于支持向量作过采样,以支持向量为分类边界,根据决策机制生成少数类样本,剔除了噪声点,帮助正类群体扩大到负类样本密度不高的区域,从而提高分类的准确性㊂
4)找出x i 在S min 中的N 个近邻(N 即SV +数量
的倍数,下文简称为过采样倍数),进行内插外推操作,生成新样本㊂假设x j 是近邻之一,则特征空间下的新生成点x ij 表示为
x ij =φ(x i )+δij (φ(x j )-φ(x i ))
(6)
式中,δij 为随机数㊂当新生成样本为内插所产生时,新生成点在x i ㊁x j 两点之间的连线上,δij 取值为(0,
1);反之,新生成点在两点的延长线上,δij 取值为(-1,0)㊂
图2　决策边界的调整
Fig.2　Adjustment of the decision boundary
SVM 原本的分类决策边界位置如图2(a)中的
细实线所示㊂自适应核SMOTE 过采样算法通过对不同样本分布情况采取不同方式生成新样本,实现改善决策边界的目的㊂在正类样本与负类样本重叠区域(图2(b)区域1处),此区域的样本分布情况会导致决策边界向正类倾斜,本文算法在此区域选择内插值增多正类样本,进而使决策边界向负类移动(粗实线位置);在正类样本和负类样本相距较远的区域,如图2(b)区域2处所示,算法则作外推操
㊃
99㊃第2期吴海燕等:一种自适应核SMOTE -SVM 算法用于不平衡数据分类
作,使正类边界向外扩展,为正类样本获取更多的分布空间,决策边界为粗实线位置㊂整个过程在核空
间下进行,当近邻样本中负类样本占多数时,可知该边界样本处于核空间中正类和负类交叠区域,因此对该边界样本做内插值;若近邻样本中正类样本占多数,可知该边界样本处于两类数据相距较远区域,因此对该样本做外插值㊂利用这种基于核的自适应样本生成方式可使样本生成与后续分类统一在同一空间下,既能使分类面更理想,也能保证样本生成的可靠性㊂
2.3　基于Gram 矩阵的样本分类
在核映射中φ(㊃)的显式表达难以获得,利用2.1节所述方法得到的新样本实际为原始样本的代数表达,而非显式表达㊂由于SVM 实际上是建立在对Gram 矩阵训练的基础上,因此为实现分类面建模,对原始的Gram 矩阵进行增广,使其包含新合成样本的核映射,无需额外求取新样本的显式表达㊂利用增广Gram 矩阵训练支持向量机,进而建立决策函数㊂
1)增广核矩阵(Gram 矩阵)
根据SVM 的对偶公式(式(3))可知,要得到决
策函数,需求出新生成样本点到其他样本点在特征
空间下的内积㊂令此内积由Gram 矩阵G 1∈R N ×N 表示,具体表达式为G 1kl =K (x k ,x l )=φ(x k )T
φ(x l ),
其中x k ㊁x l 是训练集样本㊂为了把通过内外插值得到的新生成点加至Gram 矩阵G 1中,将G 1扩展,定义新的增广矩阵为G aug ㊂扩展如式(7)所示㊂
G aug
=G 1G 2G 2
T G é
ëêêù
û
úú3(7)
式中,矩阵G 1
为原数据集中所有样本点之间的内
积矩阵
G 1∈R N ×N G 1kl =K (x k ,x l ),x k ,x l ∈S
矩阵G 2
为原始数据集中所有样本点与新生成样本点(假设新生成P 个样本点)的内积矩阵
G 2∈R N ×P G 2kl =K (x k ,x ij l ),x k ∈S ,x ij l ∈S *min
矩阵G 3
为两两新生成样本点的内积矩阵G 3∈R
P ×P
　G 3kl
=K (x pq k
,x ij l
),x pq k
,x ij l
∈S
*min
其中,G 2
可通过式(6)进一步得到㊂
K (x k ,x ij
l
)=φ(x k )㊃φ(x ij l
)=φ(x k )㊃[φ(x i )+
δij
(φ(x j )-φ(x i ))]=(1-δij
)K (x k ,x i )+δij
㊃
K (x k ,x j )
(8)
式中,x k 表示S 中任意一点,x ij l 表示新生成的点㊂
x ij l 又可用式(6)及核函数进一步表示,最后G 2
可由
式(8)计算得出,避免了新样本的显式表达㊂
G 3的计算与G 2同理㊂G 3可由式(9)计算㊂
K (x pq k ,x ij l )=x pq k ㊃x ij l =[φ(x p )+δpq
(φ(x q )-
φ(x p ))]㊃[φ(x i )+δij (φ(x j )-φ(x i ))]=(1-δij )(1-δpq )K (x i ,x p )+(1-δij )δpq K (x i ,x q )+δij (1-δpq )K (x j ,x p )+δij δpq K (x j ,x q )
(9)
从上述公式可以看出,增广核矩阵G aug 只使用
了数据集中的训练样本和核函数K (㊃,㊃),无需映射φ(㊃)的显式表达㊂需要注意的是,对于新生成样本求核矩阵时,内插㊁外推所产生的样本需按同一次序排列,且不同插值方式对应的随机数不同㊂
2)基于SVM 生成决策函数
对式(3)引入增广核矩阵㊂设P 为新增行列
数,增广Gram 矩阵用N +P 个Lagrange 乘子求解㊂待测数据点x 对应的类别f (x ),即决策函数的表示为
f (x ){=sgn ∑N i =1
αi
K (x ,x i
)+
∑
N +P
j =N +1
αj K (x ,x pq j )+}
b
(10)
式中,x pq j ∈S *
min 为新生成样本㊂
2.4　算法伪代码
对2.2节的自适应核SMOTE 过采样过程和
2.3节的基于Gram 矩阵的样本分类过程进行整合,得到算法主要步骤的伪代码如下㊂
输入:S 训练集;
k 最近邻的个数;N 过采样倍数;
输出:S *min 合成样本集;变量:S min 正类样本;SV +正类样本的支持向量集;步骤:
1)从S 中提取S min ;2)在S 中训练SVM,提取SV +;
3)在核空间下,找出SV +在S 中的k 个近邻;4)在k 个近邻中统计属于负类的点,记m 个;5)若k 个近邻中属于负类的支持向量的个数小
于k 值的一半,即m <k /2,则该样本归为需要外推值的样本;反之,归为需要内插的样本㊂根据式(6)生成新样本(内插值时随机数取(0,1),外推时随机数取(-1,0));
6)将新生成样本与原始样本一同带入式(7)~
㊃001㊃北京化工大学学报(自然科学版) 2023年
(9),得到增广核矩阵G aug㊂内插㊁外推按顺序放置,生成样本数(即需要插值操作的支持向量整数倍)由N决定;
7)由式(10)得到决策函数㊂
3　实验及结果分析
3.1　实验数据集
本文用Python语言实现所提出的算法,并将其与SVM㊁SMOTE-SVM等方法进行比较,以验证算法的优越性㊂实验使用了9个不平衡数据集,其中8个来自University of California Irvine(UCI)数据库,分别是Iris㊁Spect㊁Glass㊁Yeast㊁Balancescale㊁Ecoli㊁Car㊁Abalone数据集,另一个为真实工业生产过程中聚乙烯流化床声波故障数据集,相关反应装置以及数据信息在文献[14]中有详细介绍,本文不再赘述㊂数据集详细描述如表1所示,其中不平衡比指正类样本与负类样本数量的比值㊂
表1　实验数据集描述
Table1　Description of the experimental data set
数据集样本
总数
正类
样本数
负类
样本数
不平衡比
Iris150501001∶2
Spect267552121∶4
Glass214301841∶6
Yeast148416313211∶9 Balancescale625495761∶11
Ecoli336203161∶16
Car17286916591∶24
Abalone417711540621∶35流化床故障数据9016741∶4 本文实验分别选择每个数据集的70%的样本作为训练集,剩余的样本作为测试集㊂所有实验皆采用高斯核函数,惩罚因子C和参数g的选取采用网格搜索和10次交叉验证测试所得的最优值㊂除此以外,过采样倍数N的选择对最终分类结果也有重要影响,3.3节对此进行了说明㊂
3.2　评估指标
对于不平衡数据分类水平的评估,常用G⁃mean㊁F⁃value两种评价标准,这两种评价标准均建立在混淆矩阵(表2)的基础上㊂其中,TP为预测对的正类样本数,TN为预测对的负类样本数,FP和FN 分别为预测错的负类样本数和预测错的正类样本数㊂
表2　混淆矩阵
Table2　Confusion matrix
分类实际正类实际负类
预测正类TP FP
预测负类FN TN
G⁃mean表示正类分类精度和负类分类精度的几何平均值,需要正负类样本正确率均较高,G⁃mean才会高㊂G⁃mean越高,说明模型越稳健,其定义如下㊂
G⁃mean=TP
TP+FN×
TN
TN+FP(11) F⁃value为精确率和召回率的调和平均,令P(precision)和R(recall)分别表示样本的查准率和查全率,P=TP/(TP+FP),R=TP/(TP+FN)㊂F⁃value定义如下㊂
F⁃value=(1+β2)×P×R
β2×P+R(12)实验中β取1,表示P和R的重要性相同㊂F⁃value越高,说明正类样本被错分的越少,错分的代价越小㊂
3.3　过采样倍数的选择
过采样倍数即需要作插值操作的正类支持向量数量的倍数,是影响最终分类结果的重要参数㊂本文采用不同的过采样倍数对所提方法及SMOTE⁃SVM方法进行实验,N=1即为生成与当前正类样本中支持向量数量相等的新样本㊂在实验过程中,令N从1开始增加,直至样本集基本平衡㊂结果发现,数据并非是达到平衡时的分类效果才最好㊂以Balancescale数据集为例,过采样倍数依次取1㊁5㊁10㊁15㊁20㊁25㊁30㊁35(N=26时,数据集平衡),所得分类结果如图3所示,其中内外插值SMOTE⁃SVM 算法为样本仅在输入空间进行内外插值上采样后送入SVM获得分类器的方法㊂
由图3可见,当过采样倍数N=30时,分类效果最好㊂过采样倍数直接关系到新生成样本的数量,新生成样本数量过多会造成数据冗余,过少则达不到提高分类准确率的目的,这两种情况都无宜于分类,故对具体的数据集需要根据实际情况进一步通过实验确定㊂本文其他数据集的过采样倍数取值方法同上㊂3.4　结果分析
本文所提算法及其对比算法的实验结果如表3㊁4所示,分别为不同算法在不同数据集上的G⁃mean和F⁃value结果㊂
㊃101㊃
第2期吴海燕等:一种自适应核SMOTE-SVM算法用于不平衡数据分类
图3　不同过采样倍数分类结果
Fig.3　Results with different oversampling multiples 表3　不同算法的G⁃mean 值
Table 3　G⁃mean values of different algorithms
数据集SVM SMOTE -SVM
SMOTE -SVM
(采用内外插值)本文方法Iris
1
1
1(1)
1(1)
Spect 0.77670.79450.7822(1)0.7653(1)Glass
0.70200.69690(2)0.7190(2)Yeast 0.93050.91120.9081(1)0.9074(1)
Balancescale 0.55010.56120.4903(30)0.7119(30)Ecoli 0.79060.79060.8429(15)0.8429(15)Car 0.98290.98770.9830(2)0.9960(2)Abalone
0.89940.90100.8931(2)0.9020(2)流化床故障数据
0.81650.73030.7889(12)0.8168(12)
平均值
0.8276
0.8193
0.7432
0.8513 括号内为过采样倍数N ;加粗表示最优值㊂
表4　不同算法的F⁃value 值
Table 4　F⁃value s of different algorithms
数据集SVM SMOTE -SVM
SMOTE -SVM
(采用内外插值)本文方法Iris
1
1
1(1)
1(1)
Spect 0.53060.56970.5417(1)0.4914(1)Glass
0.62090.67560.5172(2)0.6445(2)Yeast 0.68000.68140.6809(1)0.5909(1)
Balancescale
0.17390.21560.1547(30)0.2666(30)Ecoli 0.76920.76920.8250(15)0.8250(15)Car 0.63830.70940.6383(2)0.8824(2)Abalone
0.31670.32230.2965(2)0.2693(2)流化床故障数据
0.79990.49990.6667(12)0.7267(12)
平均值
0.6144
0.6048
0.59120.6330 括号内为过采样倍数N ;加粗表示最优值㊂
分析表3和表4的实验结果可以发现:采用SMOTE 算法进行采样时,由于对各个正类样本不作具体区分,所以不能很好地增强决策边界,导致边界处样本被错分的概率较大,表现在虽然其提高了正
类样本的F⁃value ,但是在总体分类准确率上有待改善㊂内插外推的过采样方法摒弃了噪声点,在一定程度上增强了边界,对分类效果起到积极作用㊂考虑到样本投射到特征空间中可能出现坏点的情况,
㊃
201㊃北京化工大学学报(自然科学版) 2023年
本文算法既增强了决策边界,又改善了这一问题,因此G⁃mean和F⁃value两个指标结果均有所提升㊂4　结束语
本文针对不平衡数据集的分类问题,提出了一种基于核的非线性插值分类算法㊂该算法全部工作于核空间下,有效解决了样本生成与分类空间不一致的问题,并通过两种插值方式调整了分类边界,使得样本生成更具多样性,且保证了样本生成的可靠性㊂在多个UCI数据集上与常用算法的实验对比结果表明,所提算法在多数情况下可以获得最优性能㊂为进一步验证算法的可推广性,本文还采用一个真实工业故障数据集进行实验,也得到了与UCI 数据集类似的实验结果,表明该方法可有效解决数据不平衡问题,提高分类效果㊂需要指出的是,本文方法在小数据集分类中较占优势,当数据集较大时,算法可能存在耗时较长现象㊂因此,如何增强算法的实用性以及提高算法速度是需要进一步解决的问题㊂
参考文献:
[1]　石洪波,陈雨文,陈鑫.SMOTE过采样及其改进算法
研究综述[J].智能系统学报,2019,14(6):1073-
1083.
SHI H B,CHEN Y W,CHEN X.Summary of research
on SMOTE oversampling and its improved algorithms[J].
CAAI Transactions on Intelligent Systems,2019,14(6):
1073-1083.(in Chinese)
[2]　JURGOVSKY J,GRANITZER M,ZIEGLER K,et al.
Sequence classification for credit⁃card fraud detection
[J].Expert Systems with Applications,2018,100:234-
245.
[3]　RAWASHDEH H,AWAWDEH S,SHANNAG F,et al.
Intelligent system based on data mining techniques for
prediction of preterm birth for women with cervical cer⁃
clage[J].Computational Biology and Chemistry,2020,
85:107233.
[4]　YI H K,JIANG Q C,YAN X F,et al.Imbalanced clas⁃
sification based on minority clustering synthetic minority
oversampling technique with wind turbine fault detection
application[J].IEEE Transactions on Industrial Infor⁃
matics,2021,17(9):5867-5875.
[5]　李艳霞,柴毅,胡友强,等.不平衡数据分类方法综
述[J].控制与决策,2019,34(4):673-688.
LI Y X,CHAI Y,HU Y Q,et al.Review of unbalanced
data classification methods[J].Control and Decision,
2019,34(4):673-688.(in Chinese)
[6]　CHAWLA N V,BOWYER K W,HALL L O,et al.
SMOTE:synthetic minority over⁃sampling technique[J].
Journal of Artificial Intelligence Research,2002,16(1):
321-357.
[7]　ZHU T F,LIN Y P,LIU Y H.Synthetic minority over⁃
sampling technique for multiclass imbalance problems
[J].Pattern Recognition,2017,72:327-340. [8]　GEORGIOS D,FERNANDO B.Geometric SMOTE a ge⁃
ometrically enhanced drop⁃in replacement for SMOTE
[J].Information Sciences,2019,501:118-135. [9]　GAO J F,SHI W G,TAN J X,et al.Support vector ma⁃
chines based approach for fault diagnosis of valves in re⁃
ciprocating pumps[C]∥Canadian:Electrical and Com⁃
puter Engineering.Winnipeg,2002:1622-1627. [10]ZHANG C Q,ZHANG H,HU X T.A contrastive study
of machine learning on funding evaluation prediction[J].
IEEE Access,2019,7:106307-106315. [11]DEEPA T,PUNITHAVALLI M.A new sampling tech⁃
nique and SVM classification for feature selection in high⁃
dimensional imbalanced dataset[C]∥3rd International
Conference on Electronics Computer Technology
(ICECT).Kanyakumari,2011.
[12]ZHANG C K,GUO J W,LU J R.Research on classifi⁃
cation method of high⁃dimensional class⁃imbalanced data
sets based on SVM[C]∥IEEE Second International Con⁃
ference on Data Science in Cyberspace.Shenzhen,2017:
60-67.
[13]ZHOU H,YU K M,CHEN Y C,et al.A hybrid feature
selection method RFSTL for manufacturing quality predic⁃
tion based on a high dimensional imbalanced dataset[J].
IEEE Access,2021,9:29719-29735. [14]CHEN Y,WU H Y,WANG J,et al.Agglomeration⁃mo⁃
nitoring method for a fluidized bed with multiacoustic sen⁃
sors[J].Industrial&Engineering Chemistry Research,
2019,58(42):19531-19544.
㊃301㊃
第2期吴海燕等:一种自适应核SMOTE-SVM算法用于不平衡数据分类
㊃401㊃北京化工大学学报(自然科学版) 2023年An adaptive kernel SMOTE-SVM algorithm for
imbalanced data classification
WU HaiYan　CHEN XiaoLei　FAN GuoXuan
(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing100029,China) Abstract:An adaptive SMOTE-SVM classification algorithm based on kernel space is proposed to improve the classification accuracy of an imbalanced data set.The support vector machine(SVM)is then introduced to obtain support vectors(SV).The nearest neighbors of the minority support vector(SV+)are then calculated based on the kernel distance.Depending on the density distribution of SV+’s nearest neighbour,some new samples are gen⁃erated by interpolation or extrapolation.Since the explicit expression of new samples is not available,an augmented Gram matrix is constructed using both new samples and the original samples.Thereafter,based on the augmented Gram matrix,a classification decision function is generated via SVM.The improved algorithm unifies sample gener⁃ation and classification in the same kernel space,which improves the credibility of new samples.Furthermore, since the interpolation method is an adaptive method,it increases the diversity of new samples.Experiments for multiple datasets showed that the proposed algorithm can effectively improve the classification results for imbalanced datasets.
Key words:imbalanced data classification;synthetic minority oversampling technique(SMOTE);kernel space;
support vector machine
(责任编辑:吴万玲)。