统计学中对不平衡数据的处理方法分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录
1引言 (4)
1.1研究的背景和意义 (4)
1.1.1研究背景 (5)
1.1.2研究意义............................... 错误!未定义书签。

1.2国内外研究现状 (1)
1.2.1国内研究状况 (1)
1.2.2国外研究状况 (2)
1.2.3研究发展趋势 (2)
1.3研究思路及方法............................... 错误!未定义书签。

1.3.1研究思路 (7)
1.3.2研究方法 (3)
2不平衡数据的概述 (4)
2.1相关概念界定 (4)
2.1.1不平衡数据 (4)
2.1.2数据挖掘 (4)
2.1.3统计学 (4)
2.2统计学与数据挖掘的关系 (4)
3不平衡数据处理方法发展现状 (5)
3.1不平衡数据处理方法数据层面的发展现状 (5)
3.2不平衡数据处理方法算法层面的发展现状 (7)
3.3不平衡数据处理方法评价指标层面的发展现状 (12)
4不平衡数据处理方法中存在的问题 (16)
4.1数据层面 (16)
4.2算法层面 (16)
4.3评价指标层面 (16)
5对策建议 (17)
5.1训练集重构 (17)
5.2分类方法的改进 (17)
5.3优化评估方法 (17)
6结论 (19)
参考文献 (20)
致谢 (21)
统计学中对不平衡数据的处理方法分析
摘要:统计学中的不平衡数据也称为数据偏斜,是指数据集中的某一类或多类样本数量远大于其他类的样本数量,出现样本类别极不均衡的状况,严重影响模型分类。

模型分类准确度会因为不平衡数据而导致无法达到预期效果。

机器学习过程中往往不能有效地识别不平衡数据中的小类样本,容易导致准确度降低甚至失效,因此,解决不平衡分类问题是机器学习的研究重点之一。

本文对不平衡数据的分类方法进行了研究,不仅从数据方面和算法方面的方法经行分析,还将从评价指标方面进行分析,分别对目前存在的各种解决不平衡数据分类问题的方法进行介绍及比较。

关键词:不平衡数据;数据集;数据偏斜;分类方法
Analysis of the treatment of unbalanced
data in Statistics
Absrtact:Unbalanced data in statistics, also known as data skew, refers to th e fact that the number of samples of one or more categories in the data se t is far larger than that of other categories, resulting in extremely unbalance d sample categories, which seriously affects the model classification. The accu racy of model classification can not achieve the expected results because of unbalanced data. In the process of machine learning, it is often unable to eff ectively identify the small samples in the unbalanced data, which is easy to r educe the accuracy or even failure. Therefore, to solve the problem of unbal anced classification is one of the research focuses of machine learning. In thi s paper, the classification methods of unbalanced data are studied. Not only the methods of data and algorithm are analyzed, but also the evaluation ind exes are analyzed. The existing methods to solve the problem of unbalanced data classification are introduced and compared.
Key words: Unbalanced data;Date set;Date skew;classification method
1引言
1.1研究的背景和意义
1.1.1研究背景
怎么有效处理不平衡数据集是研究工作的重点,在平常生活中,数据类别不平衡十分常见。

数据的不平衡问题一般指数据中某些类别的样本占比例的大多数,某些类别只有的样本只占较少或非常少的比例。

通常这种情况中,普通的分类器会倾向被大类样本所影响而忽略掉小类样本。

机器学习模型时常常对小类样本的识别率不能令人满意。

举个例子,一个贷款公司的信用研究,其中借款逾期有20人,而按时还款的人有1980,按照这份数据建立一个模型,并对模型进行了内部验证,得到的结果正确率达到99%,是否说明了此模型的性能相当卓越?其实不然,是因为1个贷款逾期情况都发现不了才出现的所谓99%的准确率。

在这个例子我们可以看出,这是由于这些算法在面对极不平衡的数据集时,仍然假设各类数据分布平衡,从而以此得出数据总体分类准确率。

数据集按照类别种类数量,分类问题分为二类不平衡数据分类问题和多类不平衡数据分类问题。

本文则重点分析在现实生活中更为常见的二类不平衡数据分类问题。

比如整个社会治安的数据中,守法公民占极大部分,相比较的犯罪分子确是极少数的;又譬如吸烟人群都知道吸烟的危害,但是真正意义上做到戒烟的又占极少数等等。

1.1.2研究意义
数据挖掘是指通过在庞大的数据量中得到所需要的有价值的信息。

比如,快递公司可以通过分析收件地址及快递员的派件路径等来给对设置营业点及安排工作人数等等。

总而言之,有效的数据挖掘能够提升企业的利润,也能够为企业甄别欺骗诈骗等未知因素降低损失或规避风险,甚至能够帮助企业控制成本识别潜在客户和预测市场态势。

1.2国内外研究现状
1.2.1国外研究状况
国外方面,在十七届人工智能国际会议中,国际人工智能学会对不平衡分类问题进行了第一次讨论。

会议指出当前已有的不平衡数据中所用到的评价指标所存在的问题和缺点,并提出改良的方法。

学者们在参加国际机器学习会议又在2003 年继续讨论了关于不平衡分类问题,一致讨论出更完善的一种模型评价指
标:受试者工作特征曲线,这种评价指标对不平衡分类问题的评估具有显著的效果。

不仅如此,此次会议中,Drummod[1]提出欠采样方法比过采样方法更有效的观点。

Chawla[2]也比较了决策树结构、采样技术和概率估计对不平衡数据的影响。

Hulse和Estabrooks [3] [4]在采样技术对不平衡分类问题应用的研究。

1.2.2国内研究状况
早期,周志华[5]和刘胥影[6]的研究结果表明采样方法确实能对不平衡数据集进行有效处理。

后来,叶志飞[7]等人也研究了有关不平衡分类的问题。

处理不平衡数据的方法大致分为两类。

一是在数据层面上,通过多种采样方法在数据的预处理阶段平衡数据集来降低过程中偏斜类分布的影响。

欧阳源遊[8]在2014年时提出了SVM-IMSA,这是一种根据混合采样方法的非平衡数据集学习算法,该算法的基分类算法为SVM,改进了随机欠采样法和SMOTE以处理数据不平衡分类问题。

翟璐[9]在2016年发表的论文中将SMOTE方法和随机欠采样方法结合成一种新的混合采样方法,其研究的成果表明,相比较单采样方法,性能得到了一定程度的提升。

总而言之,不管是混合采样方法或是欠采样方法、过采样方法,最终目的都是为了将不平衡数据集的类别分布变为平衡平衡。

第二类,在算法层面上,不断有更多的学者们尝试通过将集成学习算法和混合采样方法结合以后再运用到不平衡分类问题中。

Qian [10]等人在2014年时进行了有关的研究,并通过不同的不平衡数据集进行了效果的检验。

于2017年,Ren[11]等人改进了SMOTE过采样方法并提出了ASMOTE方法。

Galar[12]等人再44组数据集中运用了22种不平衡数据的处理方法,最后得到的结果为:RUSBoost、UnderBagging和SMOTEBagging算法相对于其他算法更优秀,Galar等人总结了不同模型在处理不平衡分类问题上的差异。

1.2.3研究发展趋势
对数据集中的数据偏斜问题的研究非常必要,近年来,机器学习和数据挖掘的挑战之一就包括数据偏斜的问题,也就是不平衡数据分类问题。

现在这种问题普遍存在于欺诈检测、实时竞价、航空安全、信息安全、电子商务及文本分类等众多领域。

因为不平衡分类的问题十分重要也十分普遍,这就使得学术界的研究
热点之一就包括不平衡分类问题。

1.3研究思路及方法
1.3.1研究思路
第一部分为引言。

讲数据不平衡研究背景、研究的意义。

还有国内外学者对数据不平衡研究现状。

第二部分为概念界定。

第三部分为现状。

数据不平衡处理方法应用现状,各个领域方面进行描述。

第四部分为存在的问题。

数据不平衡存在的问题与原因,通过表象的问题找到问题存在的原因。

第五部分为对策建议。

不平衡数据应用对策。

包括重构数据集方面、改进分类方法、优化评估方法。

第六部分为总结。

1.3.2研究方法
文献研究法。

通过查阅各类文献,收集和整理与不平衡数据相关的相关理论知识,了解当前不平衡数据在国内外有关研究的现状和重点,为不平衡数据研究和分析做好理论依据。

描述性研究法。

通过对实际案例中的一些现象、规律、理论进行叙述,
陈述和分析其中不平衡数据涉及到的三个层面:数据层面、算法层面和评
价指标层面,并对相关理论进行整理和归纳总结。

2不平衡数据概述
2.1相关概念界定
2.1.1不平衡数据
机器学习的首要目标当然还是准确率,但机器学习在为了得到最大的准确率
的同时,都是在基于假设数据平衡的理想状况的基础上。

举个例子,在二类不平衡数据分类问题中,大类样本和小类样本若出现50:1甚至1000:1时都为不平数据。

不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。

2.1.2数据挖掘
通常,数据挖掘就是通过关联规则、偏差检测、分类和预测、时序模式、聚类分析等方式来实现的,对决策者提取数据集中有效的信息时提供帮助,发现数据间存在的某种关联,并利用这些数据蕴含的规律而做出决策。

数据挖掘的任务按照目标可以分为聚类、关联规则分析、分类和回归。

2.1.3统计学
统计学是收集、分析、整理及描述数据的科学,通过这些手段来推测观察对象的本质。

统计学应用在众多领域,其中就包括不平衡数据的领域中。

发现事物的规律,进行预测、监督,以实现系统良性运行,在不平衡数据中有很大的意义。

2.2统计学与不平衡数据的关系
数据挖掘与统计学两者在面对不平衡数据时的任务基本一致:在庞大的数据中寻找和探索模式或结构。

数据挖掘是从数量极为庞大的数据中取得有效信息。

它是涉及识别工程、网络工程、人工智能及信息检索等的学科。

统计学对此可以解释为通过计算机对杂乱无序且数量庞大的数据的自动探索性分析。

然而统计分析与数据挖掘还是存在非常大的差别,数据挖掘的目标是处理庞大无序的数据;而统计学更加注重的是定量数据。

3不平衡数据处理方法发展现状
3.1不平衡数据处理方法数据层面发展现状
(1)欠采样法
欠采样法是通过剔除过多的大类样本来因为它降低了训练样本量,所以有助于减少时间、存储开销。

欠采样法的有个无法避免的缺点是就是抛弃了很多反例,其中被删除的反例恰恰有隐含重要信息的可能性,这会导致平衡的模型产生偏差。

(2)过采样方法
与欠采样法相反,过采样方法实现数据平衡的手段则是以增加不平衡数据集中的小类样本的数量。

在过采样方法中最具代表性的时随机过采样方法(random over-sampling method),即在处理不平衡数据时事先设置好预期能达到的大类样本与小类样本数量的比例,然后开始随机复制小类样本直到大类样本与小类样本达到平衡。

过采样法对比于欠采样法,明显的优势就是不会丢失数据集中的有效信息,但缺点就是简单的随机复制小类样本的数量也无法产生新的有效信息,这也很可能导致模型过拟合而失去价值。

与随机欠采样方法不同的是,会增加模型训练的时间。

针对随机过采样方法的缺点。

(3)SMOTE方法
合成少数类过采样技术即Synthetic Minority Oversampling,缩写为SMOTE,这是一种基于随机过采样方法的改进方法。

SMOTE的基本原理可以解释为在平面直角坐标系表示为,在坐标系中找出小类样本及其临近样本,在这两点之间的的直线距离中随机产生新的样本点,以此来增加小类样本的数量,平衡不平衡数据集。

SMOTE法是通过统计学中的K最邻近算法来实现的,即KNN
(k-NearestNeightbor),最直观的含义即K个最邻近的邻居。

如图1,
图(1)SMOTE算法原理
假设红色三角形为小类样本,蓝色圆形为大类样本,而方框中的红色三角形则为SMOTE法展开的出发点m,那么图中的其他k个红色三角形都为这个初始点的最邻近值,如图2选中初始点m及其随机一个最邻近值,在它们之间的直线距
离之间随机选中一点就是人工合成的新的样本点。

不断的通过这种方式生成新样本点以达到数据类别平衡就是SMOTE法。

图2-SMOTE算法原理
(4)混合采样方法
由于过采样法和欠采样法都各有优点和缺点,单一使用某种方法都有可能对模型产生不利影响,比如模型过拟合,或丢失重要数据从而导致的模型产生偏差,为了减小单一使用单一使用过采样法或欠采样法带来的不利影响,结合两种采样方法同时使用有可能可以取得更好的效果。

混合采样方法实质上为了达到增加数据集中少数类样本同时减少多数类样本的目的,以此降低不平衡的程度。

随着时间推移,越来越多的采样方法被提出,混合采样方法越来越多组合方式,无论采用什么样的组合,都是为了让数据集在不平衡的情况下更能呈现出让人满意的结果。

可以看出,无论是过采样方法或是欠采样方法,混合采样方法,它们最终目的都为了使大类数据和小类数据变得更加平衡,减小不平衡数据集所造成的影响。

(5)集成学习算法
某种程度上,集成学习算法属于混合不平衡类别的一种分类方法,集成学习算法是基于统计学习理论上的一种机器学习算法,是通过构建结合多个分类模型器完成模型训练。

面对平衡数据时,其基本思路就是将集成学习方法与处理不平
衡数据的方法相结合,直到分类模型达到能处理不平衡数据的需求。

集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,使用集成学习方法能有效地提高分类模型的性能。

3.2不平衡数据处理方法算法层面发展现状
在数据挖掘领域发展的过程中,有很多其他领域学科的理论知识在数据挖掘中被应用。

数据挖掘结合了多种技术,如信息检索、高性能计算机、可视化和统计学方法等领域知识,正因为如此,数据挖掘算法种类越来越多,其最具代表性的包括统计学方法、聚类、关联规则分析、分类和回归等。

(1)统计学方法
数据挖掘涉及的科学领域和技术很多,如统计技术。

统计学研究数据的收集、分析、解释和表示。

数据挖掘与统计学具有天然联系。

统计技术对数据集进行挖掘的基本思路为,假定一个一个概率分布模型,比如二项分布、偏态分布或正态分布,根据不同的模型来采取不同的方式开展数据挖掘工作。

统计模型可以是数据挖掘任务的结果,而数据挖掘任务也可以建立在统计模型之上。

常用的统计学方法有朴素贝叶斯分类方法、回归分析、方差分析等方法。

朴素贝叶斯分类方法基于贝叶斯定理,朴素贝叶斯分类算法的优势在于其有着坚实的数学基础,以及稳定的分类效率。

在用于大型数据库时具有较高的速度,朴素贝叶斯分类假定一个属性对分类的影响独立于其它属性的值。

朴素贝叶斯模型中所需估计的参数相对较少,且对缺失数据不太敏感,算法也比较简单。

在一定程度上,朴素贝叶斯模型与其他分类方法相比具有更低的误差率。

统计学中的回归分析,即对所收集的数据进行分析,找出其中隐含的关联,即因变量和有影响因素的自变量或回归变量,分析因变量与自变量之间相关的具体形式。

举个例子,身高与体重是否存在关联?现随机抽取10人,获得他们的身高体重,身高单位(单位:cm)分别为159,174,181,178,166,183,176,176,175,170,对应的体重(单位:kg)分别为49,55,74,71,55,71,63,70,66,50,如图3所示,假设原假设H0:身高体重间没有相关性。

图3-身高体重
其回归结果如图4所示,
图4-身高体重的回归结果
由此可以得出其中的关联:y=-121.006012+1.060621242,即身高x每在增加1cm,体重则可能增加1.06kg,其中的r square 与multiple r展示了身高体重之间的相关性,significance F即为p值,1-p<α(0.05),表示为应拒绝原假设,身高体重之间存在关联。

为利用回归分析用数学模型来表现两者间的具体关系,决策者可以根据这些关系以进行预测或指导决策。

在数据挖掘中回归分析应用的例子还很多,例如,回归分析可用来估计出降雨概率;可以预测出矿脉中埋藏的矿藏数量;可以以明星代言来预测商品销售量。

统计方法中的方差分析一可用于检验回归直线模型的准确性和自变量对最终回归的影响,在数据挖掘过程中经常使用到方差分析。

(2)机器学习方法
机器学习方法包括聚类、关联规则分析、分类和回归等方法。

聚类是指对没有类别进行分类时,依照样本近似度进行分类的方法。

与分类模型训练的差别在于,聚类模型可以通过算法未知类别的样本进行分类,在进行聚类时,我们可以不关心甚至不知道样本的类别是什么,只需要实现样本中相似的类别聚集。

聚类是一种非监督学习的算法。

关联规则挖掘是数据挖掘中的一个很重要的工具,它是从数据背后发现事物之间可能存在的关联或者联系。

下面举一个例子,假如某个商店的老板希望对顾客的购物习惯有更加深入的了解,如:“哪些商品可能会被同时购买于同一次消费中?”也许她会发现购买了熟食的顾客大多同时都会在此次购物中对饮料进行消费,这便可以得出其中蕴含的关联规则“熟食—饮料”,这条关联规则中,熟食被称为规则的前项,饮料则称为后项。

通过对熟食进行某些促销活动如买几送一或打折,同时在能让顾客接受的范围内提高饮料的价格,在这条关联规则的影响下,售出饮料时便有可能使得商店利润得到提升。

由此可以得出,关联规则分析的任务是寻找蕴含在庞大数据集中的某些潜在关联。

分类作为一种分析方法,常用于预测式数据挖掘。

这种方法区别于聚类在于需要对数据集中的样本进行人工标注类别和预先训练分类器。

由此可知,分类的过程包括训练和预测两个步骤,一是将样本数据进行预处理,即人工标注类别,二是构造和训练一个分类函数,使得该分类模型能够按需求准确的将数据集中的样本映射在各个类别中。

回归就是通过历史的数据以推测观察事物未来的趋势,把两个或以上的对象以具体的函数形式表示出来,回归分析的作用包括检验其相关性或是否存在线性关系及线性关系之间的拟合度等等。

回归分析应用在很多领域如经济学、环境学、心理学等等,其中在经济学中就可以用于解释市场市场营销效果、品牌偏好和销售额等等。

(3)Bagging算法
Bagging即套袋法,可译为自主整合法。

Bagging算法的核心思路是以自助采样获得训练集中的不同子集。

自助采样是通过对原始数据集有放回地随机采样,
从而生成与原始数据集相同容量大小的一个新的样本集。

Bagging属于最早的一种集成学习算法,既最简单就可以实现,同时还拥有较好的效果的算法之一。

Bagging算法能够实现降低过拟合的程度,Bagging算法能够适应较强而复杂的模型。

Bagging算法的基本步骤是:
1)对数据集进行有放回地抽取样本。

在进行n次有放回的抽取后,从中获得k 个数据集作为训练集。

(n次抽取得到的所有数据集之间不交叉,相互独立)2)每个训练集中都产生一个模型,进行了n轮,k个训练集产生了n个模型。

3)对分类问题:把步骤2所产生的k个模型采用投票的方式得到分类结果,得到的所有分类结果具有相同的重要性;关于回归,则计算产生的模型的均值作为结果。

(4)随机森林算法
随机森林作为一种十分常见的机器学习算法,优势在于随机森林算法可以处理数量庞大的输入变数,面对多种资料时仍然能够产生高效的分类器,而且在数据出现噪声时,甚至出现很大量的噪声,随机森林算法仍然能维持一定的准确度。

随机森林算法还可以用来进行分类和回归任务。

为了解释什么是随机森林算法,首先要解释其中的决策树,决策树一般在遇到问题时按照其特征一分为二,即选取特征对数据集进行划分。

对特征不断细化和深入,就如同树枝分叉,当分枝的进行得越深入,就意味着所需要提的问题数也逐渐简化。

当到了无法细分或问题可以得到解决时, 决策树的分枝便结束了。

举个例子,现在提出问题:今天能不能吃肉?首先肉的特征进行细分,肉好不好吃?好吃就进行下一步,不好吃就不吃,第二步则是肉价今天贵不贵,便宜就下一步,贵就不吃,再下一步肉和鱼哪个好?肉好就下一步,一直细分到无法细分时结束分枝。

随机森林的字面意思就可以理解为由很多决策树构成。

随机森林的工作原理是从整个数据集中有放回的抽取数据,由抽取得到的众多子数据集构成决策树,所有决策树构造完成时都输出一个结果,最后对所有的输出结果进行投票,将得到高票数的预测目标作为随机森林算法的预测结果。

举个例子,A要决定在国庆节时去广州的哪一家餐厅。

A问B关于餐厅的一些问题,如价格、菜品、菜系、交通和停车问题等等。

B基于自己的评价,会给A一些经验,建议A可以去哪些餐厅。

之后,A又问了很多
在广州生活过的同伴如CDEF等,提出和问题都不完全相同,各个同伴们也推荐了自己去过的一些。

最后A选择了推荐次数最多的餐厅,这就是典型的随机森林算法。

随机森林算法也有不可避免的缺点,比如决策树过多时,训练成本和时间较高。

(5)Boosting
Boosting也称为增强学习或提升法,是一种重要的集成学习技术,Boosting 将分类器分类为两者,一种称为弱学习器,即分类效果与随机分类相差无几;与之对比的称为强学习器,强学习器的分类效果可以接近准确结果。

其思想是首先赋予一个样本权重,一般初始时默认权重为均匀的,以这个样本训练一个弱学习器对该样本进行分类,得到误差率以后,根据误差率改变权重,一般是误差大的权重越小,所以要进行加权,然后再次训练,第二次训练得到的分类器再次在误差大的区域进行加权,多次训练以后最终得到的强分类器就是前面所有弱分类器对误差加权训练得到的结果。

(6)AdaBoost
是英文"Adaptive Boosting"(自适应增强)的缩写,是Boosting的改进方法,Boosting在训练过程中无法回避两个问题,一是如何调整每轮训练中的样本权重,二是如何把所有得出的弱分类器组合成一个强分类器。

Adaboost就解决了这两个问题,一是提高前一轮训练中样本误差的权重,降低样本识别正确的权重,这样可以使得下一轮的训练中,弱分类器能够更容易识别到错误的样本;二是加大误差率较小的分类器在投票中的权重,降低误差率大的分类器的权重。

3.3不平衡数据处理方法评价指标层面发展现状
二类不平衡数据分类问题中,对于分类模型而言,对数据集中的样本分类结果只有四种如图5所示:
结果应该为负例而实际分类模型也判断为负例,这种情况称为真阳性(True Positive,TP),是对样本预测正确的结果;。

相关文档
最新文档