分类规则在金融行业的应用分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类规则在金融行业的应用分析
*
;
摘要:数据库内容丰富,蕴藏大量信息。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。随着数据挖掘的蓬勃发展,它的功能会越来越多。分类规则就是其中一种,它可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出。基于以上内容,可以建立一个分类模型,进行详细的分析,对保险客户的信用、安全或风险进行分类评价。
关键词:数据挖掘;分类;金融;保险
前言:数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。分类规则一种数据分析形式,可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出,同时基于分类规则方法的数据挖掘被广泛应用于金融行业。
、
正文:分类规则在金融行业的应用分析
众所周知,数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。数据分类是数据挖掘的功能之一,也是数据挖掘领域一种非常重要的任务,在神经网络、专家系统、统计学习中得到较早的研究,并且目前在商业中得到了广泛的应用。数据分类实际上就是从数据库对象中发现共性,将数据对象分成不同几类的一个过程,具体来说是在己有数据的基础上建立一个分类函数或构造出一个分类模型,该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类是一种有监督的学习。本文就数据挖掘中的分类规则的相关知识进行详尽分析与应用说明。
一、数据分类的概念
数据分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其
划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。
二、分类规则的分析
分类定义为:给定数据库S={s1,s2,…,sn} ,元组si ∈S ,类的集合
C={c1,c2,…,cm },分类问题定义为从数据库到类集合的映射f: S →C ,即数据库中的元si 分配到某个类Cj 中,有Cj={si|f(si)= cj ,1≤i ≤n,si ∈D}。
数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。
通常在分类任务中数据集被划分为训练集和测试集两个部分。数据集中用来建立模型数据称为训练集,训练集是构造分类器的基础。训练集由多条数据库记录组成,每条记录是一个由多个个相关字段值组成的特征向量,称之为属性,训练集的每条记录还有一个特定的值与之对应,用于表示该记录的类别,称之为类标签。测试集是数据集中的另外一组数据库记录,用来评估分类模型的准确率。
数据分类的基本技术有:判定树归约、贝叶斯分类和贝叶斯网络、神经网络。
三、判定树归约
/
判定树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。在判定树构造时,许多分枝可能反映的是训练数据中的噪声或孤立点。树剪枝试图检测和剪去这种分枝,以提高在未知数据上分类的准确性。判定树作为一种常用的机器学习方法,主要用于建立预测模型,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
判定树归约的基本算法是贪心算法,它自顶向下递归的各个击破方式构造判定树。设S 是s 个数据样本的集合。假定类标号属性具有m 个不同值,定义m 个不同类Ci (i=1,...,m )。设si 是类Ci 中的样本数.一个给定的样本分类所需的期望信息由下式给出:
∑=-=m
i i i m p p s s s I 1
21)(log ),...,,(
设属性A 具有V 个不同值{a 1a 2,...,a v }。可以用属性A 将S 划分为v 个子集{S 1,S 2,...,S v };其中。S i 包含s 中这样一些样本,它们在A 上具有值a j 。如果A 宣
威测试属性(即最好的分裂属性),则这些子集对应于由包含集合S 的节点生长
)(),..,,()(ain 21A E s s s I A G M -=
根据以上数据可以进行判定树归约:(1)计算给定样本分类所需的期望信息
I (T) = −3/9log
23/9-6/9log
2
6/9 =
(2)计算每个属性的熵
性别:
~
I
x1
(T)=4/9(-1/2log21/2-1/2lg21/2)+5/9(-1/5log21/5-4/5log24/5)= Gain(x1)=客户年龄:
此属性是个连续变量,先离散化处理。这里的离散化是把连续的样本排成顺序,然后找出它的中间某个值(称作阀值),使得根据阀值计算出来的信息增益达到最大。例子中客户年龄的阀值是{23,24,30,35,43,45,46,48,51},从这几个值中选取最优阀值(最高信息增益),对于这的例子来讲阀值选定为
48。
I x2(T)=2/9(-1/2log
2
1/2-1/2lg
2
1/2)+7/9(-2/7log
2
2/7-5/7log
2
5/7)=
Gain(x2)=优惠情况:
I x3(T)=3/9(-1/3log
2
1/3-2/3log
2
2/3)+6/9(-1/3log
2
1/3-2/3log
2
2/3)=
Gain(x3)=比较三个属性的信息增益,可以看出客户年龄具有最高信息增益率,所以选择客户年龄对决策树进行首次分区,如图2。由于第二个集合子节点的样本仍然不同属于一个类,所以还要继续对第二个数据集采取同样的方法进行分区,直到树的每个分支都属于同一个类为止,最后得出结果如图3。