银行客户分类问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评阅编号(由校组委会评阅前进行编号):
编号专用页评阅编号(由校组委会评阅前进行编号):
评阅记录:
评奖结果:
银行信贷业务问题
摘要
随着经济的快速发展,银行越来越重视客户的分类,对于银行来说,一个新客户的到来,银行应该针对该客户的信息,判断客户可能的类别,然后采用针对性较强的销售策略,以获得最高的效益。
本文就是一个典型的银行客户分类问题,第一问我们运用支持向量机模型把银行客户分成有贷款和无贷款的,把附件bank1中的数据作为训练集,将其中的客户资料进行量化,构造出分类函数)
x
g
f
y+
=
=
x
=,把数据
))
wx
(
sgn(
sgn(
(b
)
带进去当1
y时此客户是无贷款的,运用支持向
=
=
-
y时此客户为有贷款的,当1
量机计算出参数w和b,再从附件bank-full中随机抽取10%的数据作为检测集进行检验得到准确率为97.1688%。
第二问我们构造决策树模型对有贷款和无贷款的客户进行细分,我们把附件bank1中数据分为有贷款和无贷款的,分别建立决策树。我们只选取年龄、工作、婚姻状况、教育程度、信贷违约、年平均余额这六个属性,把是否信贷违约看做分类标识,先对数据进行量化分类,再分别算出它们的信息增益,根据算出的信息增益值的大小,对属性进行排序确定叶节点画出决策树,把决策树的每一个从根到叶节点的路径作为一个分类,由此我们把有贷款的无贷款的都细分为六类。
第三问分为两小问来解答:(1)判断此客户是否可能购买贷款产品,我们任意给出一个客户资料,把客户资料量化后代入第一问中的模型得出1
y,因此
=
我们判断此客户有可能购买贷款产品。(2)建议其购买哪种贷款产品,我们再把客户资料代入第二问中的模型判断出此客户属于有贷款中的第二类,由每类客户的购买建议,我们推荐他购买短期的担保贷款。
关键词:分类问题支持向量机决策树信息增益
一、问题的重述
近年来以来,我国经济获得了快速增长,银行的信贷资本在其中发挥了极其重要的作用,银行信贷业务的发展是当前扩大我国国内需求与促进经济增长的重要途径之一。银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。一般来说,银行信贷业务是银行赢利的重要手段,所以很多银行都推出了很多新的业务来满足更多人士的贷款需求。从银行信贷业务的分类来说,可以分为法人信贷业务、个人信贷业务。其中法人信贷业务包括项目贷款、流动资金贷款、小企业贷款、房地产企业贷款等;个人信贷业务包括个人住房贷款、个人消费贷款、个人经营贷款等。
银行信贷业务同时也是风险性较大的一种业务。按照贷款期限来说,银行信贷业务分为短期贷款,即一年以内;中期贷款,即一年以上五年以下;长期贷款,五年以上等三种类型。按保障条件来分,银行信贷业务可以分为信用贷款、担保贷款和票据贴现等三个类别。
某银行为了对客户提供更好的信贷服务,对信用卡客户进行了详细的分析和调查。调查主题是对某种家庭和个人背景的用户成为银行信贷的潜在客户的可能性进行分析与判断。请考虑以下问题:
(1)建立能够描述有贷款和无贷款的客户的基本背景数据模型;
(2)对有贷款和无贷款的客户群进行细分建模;
(3)给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。
二、问题的分析
本题是一个比较典型的分类问题。
问题一是建立能够描述有贷款和无贷款的客户的基本背景数据模型。对于这个问题,我们要先建立一个二分类模型,把有贷款和无贷款的客户资料分开,在这里我们用支持向量机来解决这个二分类问题,建立一个基于支持向量机的银行客户分类模型,由于不能确定它是否是线性可分的,而线性可分是线性不可分的一种特殊情况,因此我们把它看做是线性不可分的来处理,即把它看做是非线性的来处理。用附件bank1中的数据作成的训练集来求解模型,再从bank-full中随机选取10%的数据作为检测集来验证模型是否合理。
问题二是在问题一的基础上对有贷款和无贷款的客户再进行细分建模,这不在是一个二分类问题,而是一个多分类问题,因此我们在此问中采取决策树模型,先根据信息增益分别对有贷款和无贷款的客户资料做出决策树,在对决策树进行调整,得到一个合理的决策树,将每一个决策树的路径作为一个分类,从而达到对有贷款和无贷款的客户群进行细分的目的。
问题三是给定一个客户的背景,判断其是否可能购买贷款产品,如果可能的话建议其购买哪种贷款产品。在这一问中我们把它分成两小问来处理:(1)给定一个客户的背景,判断其是否可能购买贷款产品,给定一个客户资料把它带入第一问建立的模型中得出它是否会购买贷款。(2)我们先把第二问中得到的有贷款的客户细分类进行贷款产品的配对,再把此客户的背景资料带入第二问建立的模型中看他是出于哪一类的,给出相应的产品推荐。
三、符号的说明
T : 附件bank1中的数据作成的训练集,
i x :由年龄、工作、婚姻状况、教育程度、信贷违约、年平均余额6个属性组成的向量, i y :分类标记,
T :原训练集T 转化为Hilbert 空间H 中的新训练集, i x :由i x 映射到Hilbert 空间H 中的向量, ()g x :Hilbert 空间H 中超平面, i D :样本点, ()f x :分类函数,
i δ:样本点(),i i i D x y =到超平面()g x 的间隔, i σ: 样本点到超平面的距离,即几何间隔, i ξ:松弛变量, C :惩罚参数,
i λ:拉格朗日乘子, S :分类后的训练集,
),...,,(21n s s s I :样本分类所需的期望信息, )(A E :A 的信息熵, )(A Gain :A 的信息增益。
四、模型假设
1、本模型只考虑年龄、工作、婚姻状况、受教育程度、信贷违约、年平均余额,不考虑其他因素。
2、只要有房贷或个人贷款中的一样,我们就认为他是有贷款的。
3、不考虑经济波动对本数据的影响。
4、不考虑属性间的相互影响。
五、模型的建立与求解
5.1问题一
5.1.1 模型的建立
本问题采用支持向量机[1]来进行二分类,由于这个二分类问题究竟是否是线性可分的尚不能定论,因此不能简单的认为它是线性可分的而作简单化处理,而线性可分是线性不可分的一种特殊情况,故在得出结论前,我们把它看做是线性不可分的来处理,即非线性的情况。
我们解决线性不可分问题的基本思路——向高维空间转化,使其变得线性可分。因此我们先把低维的线性不可分的情况转化为高维线性可分的情况,再来建立线性可分的支持向量机模型[6][7]。
我们把附件bank1中的数据作为训练集,则训练集T 为