一种改进的降噪自编码神经网络不平衡数据分类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第34卷第5期2017年5月

计算机应用研究

Application Research of Computers

Vol. 34No. 5

May 2017

一种改进的降噪自编码神经网络不平衡数据分类算法

张成刚la’l b,宋佳智2,姜静清lb’3t,裴志利1

(1.内蒙古民族大学a.数学学院;b.计算机科学与技术学院,内蒙古通辽028000; 2.东北师范大学计算机科

学与信息技术学院,长春130000; 3.吉林大学符号计算与知识工程教育部重点实验室,长春130012)

摘要:针对少数类样本合成过采样技术(s yn th e tic m in o rity o v e r-s a m p lin g te c h n iq u e,S M O T E)在合成少数类新样

本时会带来噪声问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(S M O T E-S D A E)。该算法通过

S M O T E方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪声的影响,利用降噪自编码

神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在

U C I不平衡数据集上实验结果表明,相比传统S V M算法,该算法显著提高了不平衡数据集中少数类的分类精度。

关键词:神经网络;过采样;不平衡数据;分类

中图分类号:T P183; T P301.6文献标志码:A文章编号:1001-3695(2017)05-1329-04

d o i:10. 3969/j. issn. 1001-3695.2017.05.011

Imbalanced data classification algorithm of

improved de-noising auto-encoder neural network

Zhang Chenggangla,lb,Song Jiazhi2’ Jiang Jin g q in g lb,3t,Pei Z h ililb

(1. a. College of Mathematics,b. College of Computer Science & Technology ’ Inner Mongolia University for the Nationalities ’

Mongolia028000 , China;2. College of Computer Science & Information Technology ’ Northeast Normal University, Changchun 130000 , China;

3. Key Laboratory 〇o Symbolic Computation & Knowledye Enyineeriny 〇o Ministry 〇oEducatioo , Jilin Universitt, Changchun 130012 ’ China)

A b s tr a c t:A im in g at the noise problem s o f SM OTE algo rithm when synthesizing new m in o rity class

posed a stacked de-noisin g auto-encoder neural net-work algo rithm based on S M O T E, S M O TE-SD A E. The propo balanced the o rig in a l data sets by using SM OTE to synthesize new m in o rity class sam ples’ and then effect classifies the oversam pling d ata sets through the laye r-b y-la ye r unsupervised de-noise le a rn in g and supervised fin e-tu n in g

process o f de-noisin g auto-encoder neural netw ork given the im pa ct o f noise produced in the proce

E xperim enta l results on U C I im balanced data sets in d ica te th a t com pared w ith tra d itio n a l S VM a lg o rith m s’ S M O TE-SD A E algo­

rith m sig n ifica n tly im proves the m in o rity class classificatio n accuracy o f the im balanced data sets.

K e y w o r d s:neural n e tw o rk; ove r-sam pling; im balanced da ta; classificatio n

〇引言

分类问题是数据挖掘和机器学习领域的一项重要研究内容。针对平衡数据分类问题现有的方法一般都能得到较好的效果,但是在实际的应用环境中存在和产生着大量的不平衡数据,如网络人侵、文本分类、欺骗信用卡检测、医疗诊断等’ 其中准确识别少数类信息有着重要意义。为弥补少数类在样本在数据分布方面不足的问题,C h a w la等人[5]提出的SM O TE 算法不仅能有效地人工合成少数类样本,而且在一定程度上避免了过拟合问题。但由于人工生成了新的样本数据,所以会带来噪声等问题。近年来研究人员提出了许多S M O T E的改进算法。张永等人[6]提出的A L S M O T E算法将主动学习支持向量机作为分类器,采用基于距离的主动选择最佳样本的学习策略,用来改进S M O T E方法的不足。王超学等人[7]将遗传算法引人到S M O T E中提出G A-S M O T E算法,能够有区别地选择少数类样本,并且有效控制合成样本的质量。但上述算法均存在以下不足:a)没有考虑到数据集内部的本质特征表示,所以对数据的泛化能力不高;b)针对新增的噪声数据缺少必要的处理过程,导致算法的鲁棒性较差。

基于深度学习思想的自编码神经网络(auto-encoder neural n e tw o rk, A E)在机器学习和数据挖掘领域已经取得了巨大成功[8],利用无监督学习方式预训练网络参数,依靠逐层调整参数来学习数据的内在特征并消除无关和冗余信息,然后使用有监督学习将重构误差反向优化参数。堆栈降噪自编码神经网络(stacked de-noisin g auto-encoder neural n e tw o rk,S D A E)通过将原始数据加人噪声,可训练出对原始输人信息更加鲁棒的表达特征,从而提升自编码神经网络对输人数据的泛化能力[9]。本文提出的基于S M O T E方法降噪自编码神经网络算法

收稿日期:2016-04-06;修回日期:2016-05-25 基金项目:国家自然科学基金资助项目(61672301,61662057);内蒙古自然科学基金资助项目(2016MS0336);内蒙古民族大学科学研究资助项目(NMDYB1731);内蒙古自治区“草原英才工程”基金资助项目(2013);内蒙古自治区“青 年科技领军人才”基金资助项目(NJYT-14-A09);内蒙古自治区“21人才工程”二层次人选基金资助项目(210)

作者简介:张成刚(1986-),男,硕士,主要研究方向为人工智能、机器学习;宋佳智(1993-)男,硕士研究生,主要研究方向为数据挖掘;姜静清 (196-),女(通信作者),教授,硕导,博士,主要研究方向为人工智能、机器学习(j+iangj+ingqing@);裴志利(196-),男,教授,博士,主要 研究方向为机器学习、文本挖掘.

相关文档
最新文档