评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训
【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配
【评分卡】评分卡⼊门与创建原则——分箱、WOE 、IV、分值分配本⽂主要讲“变量选择”“模型开发”“评分卡创建和刻度”变量分析⾸先,需要确定变量之间是否存在共线性,若存在⾼度相关性,只需保存最稳定、预测能⼒最⾼的那个。
需要通过 VIF(variance inflation factor)也就是 ⽅差膨胀因⼦进⾏检验。
变量分为连续变量和分类变量。
在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的⼀种称呼。
要将logistic 模型转换为标准评分卡的形式,这⼀环节是必须完成的。
信⽤评分卡开发中⼀般有常⽤的等距分段、等深分段、最优分段。
单因⼦分析,⽤来检测各变量的预测强度,⽅法为WOE、IV;WOEWOE(weight of Evidence)字⾯意思证据权重,对分箱后的每组进⾏。
假设good为好客户(未违约),bad为坏客户(违约)。
#good(i)表⽰每组中标签为good的数量,#good(T)为good的总数量;bad相同。
这⾥说⼀下,有的地⽅计算WOE时使⽤的是的,其实是没有影响的,因为我们计算WOE的⽬的其实是通过WOE去计算IV,从⽽达到预测的⽬的。
后⾯IV计算中,会通过相减后相乘的⽅式把负号给抵消掉。
所以不管谁做分⼦,谁做分母,最终的IV预测结果是不变的。
IVgood 占⽐bad 占⽐IV(information value)衡量的是某⼀个变量的信息量,公式如下:N为分组的组数;IV可⽤来表⽰⼀个变量的预测能⼒。
IV预测能⼒<0.03⽆预测能⼒0.03~0.09低0.1~0.29中0.3~0.49⾼>=0.5极⾼根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最⼤值,此时的分箱效果最好。
分组⼀般原则1. 组间差异⼤2. 组内差异⼩3. 每组占⽐不低于5%4. 必须有好、坏两种分类举例说明例如按年龄分组,⼀般进⾏分箱,我们都喜欢按照少年、青年、中年、⽼年⼏⼤类进⾏分组,但效果真的不⼀定好:Age good bad WOE<185040 18~3010060 30~6010080 >608040 ALL330220ln()=40/22050/330−0.182321556793955 ln()=60/220100/3300.105360515657826 ln()=80/220100/330−0.182321556793955 ln()=40/22080/3300.287682072451781根据IV值可以看出,预测能⼒低,建议重新调整分箱。
大数据的分析与处理方法解读_光环大数据培训机构
大数据的分析与处理方法解读_光环大数据培训机构越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
基于此,大数据分析的方法理论有哪些呢?大数据分析的五个基本方面PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。
通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。
可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。
语义引擎需要被设计成能够从“文档”中智能提取信息。
DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。
集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。
这些算法不仅要处理大数据的量,也要处理大数据的速度。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
大数据处理大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。
大数据培训班_你对大数据了解多少呢_光环大数据培训
大数据培训班_你对大数据了解多少呢_光环大数据培训随着大数据时代的迅速来临,大数据的应用开始逐渐进入了社会的各个领域,他的相关技术已经渗透到各行各业,基于大数据分析的新兴学科也随之衍生。
网络大数据的呈现为大数据分析技术人才提供了前所未有的宝贵机遇,但同时也提出了非常大的挑战。
大数据为人们更好地感知现在、预测未来将带来的新型应用。
大数据的技术与应用还是处于起步阶段,其应用的前景不可预测。
不要犹豫啦,来光环大数据参加大数据培训吧。
什么是大数据?大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。
这个定义带有主观性,对于“究竟多大才算是大数据”,其标准是可以调整的。
简单来说,大数据由三项主要技术趋势汇聚组成,一是海量交易数据,二是海量交瓦数据,三是海量数据处理。
大数据自诞生开始,便受到广泛的关注。
什么数据结构、思维仓库、迭代算法、样本相关一个个概念玄乎其神,让人摸不着头脑。
作为一家专业的大数据处理公司,开运联合告诉你:其实,大数据一点都不神秘,而且就在我们身边。
一:医疗大数据看病更便捷在未来,借助于大数据平台我们可以收集不同病例和治疗方案,以及病人的基本特征,可以建立针对疾病特点的数据库。
如果未来基因技术发展成熟,可以根据病人的基因序列特点进行分类,建立医疗行业的病人分类数据库。
在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊,明确定位疾病。
同时这些数据也有利于医药行业开发出更加有效的药物和医疗器械。
医疗行业的数据应用一直在进行,但是数据没有打通,都是孤岛数据,没有办法进行大规模应用。
未来需要将这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。
二:金融大数据赚钱更给力企业和个人的一些信用记录现在有全国性质的统一数据库能够拿到部分数据。
但是对于单个银行来说,同样是无法拿到用户在其他银行的行为记录数据的,其二银行本身在做很多信贷风险分析的时候,确实需要大量数据做相关性分析,但是很多数据来源于政府各个职能部门,包括工商税务,质量监督,检察院法院等,这些数据短期仍然是无法拿到。
光环大数据数据分析培训 数据分析的基本方法论
光环大数据数据分析培训数据分析的基本方法论在目前讲解数据分析的文章里,大多数会忽略数据分析本身的目的。
这会导致我们在执行时,会出现动作变形的情况。
以终为始,才能保证不会跑偏。
个人的理解上,数据分析是为了能以量化的方式来分析业务问题并得出结论。
其中有两个重点词语:量化和业务。
首先讲下量化。
量化是为了统一认知,并且确保路径可回溯,可复制。
统一认知后,才能保证不同层级,不同部门的人在平等话语权和同一个方向的背景下进行讨论和协作,才能避免公司内的人以「我感觉」「我猜测」来猜测当前业务的情况。
路径可回溯可复制指的是,通过量化后的结果,许多优化的方法是可以被找到原因并且可以被复制的。
同样是转化率优化,用A方案和B方案,谁的效果会比较好和具体好多少,都是可被预测的。
要想做到量化,需要做到三点:建立量化体系,明确量化重点和保证数据准确性。
1.1建立量化体系建立量化体系,主要是根据「指标设计方法」,设计业务的「核心指标+拆解指标+业务指标」,最后落地成全公司通用的「指标字典」和「维度字典」。
这种工作一般是由数据分析师或数据PM来担任完成。
通过这种方式,我们就能初步建立面向全公司全面而系统的量化分析框架,保证日常分析可以做到「逐层拆解,不重不漏」。
1.1.1指标设计方法讲到指标设计方法,大家可能觉得,之前听过了产品设计方法,程序开发方法,指标这种东西也有设计方法么?确实有,指标设计是一套以准确和易懂为准则,集合统计学和业务效果的方法论。
准确是指能够准确满足衡量目的,易懂是指标算法能直观显示好与坏,并且指标的算法也能够通俗易懂。
这两者很多时候需要有所抉择,准确是第一位的。
举个例子:当我们想衡量一个群体收入的差异性时,用方差还是用基尼系数?方差好懂,但不能显示两个极端的差异性多大。
基尼系数算法不好懂,但能准确描述这个问题。
具体到指标设计,我们需要使用一些常用的统计学工具:以顾客质量分析为例:概况是我们看下顾客的平均支付金额,或者支付中位数,来了解顾客概况。
评分卡模型评估方法
评分卡模型评估方法全文共四篇示例,供读者参考第一篇示例:评分卡模型是银行和金融机构常用的信用评估工具,它通过对个人或企业的信息进行数学建模和评分,帮助机构准确地评估借款人的信用风险。
评分卡模型的建立和评估是一个复杂且需要一定经验的过程,需要考虑模型的准确性、稳定性和可解释性。
评分卡模型的评估方法有很多种,其中比较常用的包括ROC曲线、KS值和模型AUC值等指标。
ROC曲线是接收者操作特征曲线的缩写,它通过绘制以不同阈值为判断标准的真正例率(True Positive Rate)和假正例率(False Positive Rate)的曲线,来评估模型的准确性。
ROC曲线下的面积即AUC值,AUC值越接近1,代表模型的准确性越高。
除了ROC曲线和AUC值,KS值也是评估评分卡模型的常用指标。
KS值是模型对不同信用风险客户的区分能力,通俗来讲就是在不同阈值下,模型对好客户和坏客户的区分程度。
KS值越高,代表模型的区分能力越强。
在评估评分卡模型时,还需要考虑模型的稳定性和可解释性。
模型的稳定性指的是模型在不同时间段或不同数据集上的表现是否稳定,即使在不同数据集上也能够保持一定的准确性;而模型的可解释性是指模型的每个变量对于最终评分的影响程度是否容易理解和解释。
除了以上的指标外,还可以通过对模型的PSI值进行评估来检验模型的稳定性。
PSI(Population Stability Index)是用来度量两个不同时间点或不同数据集之间的分布变化程度,PSI值越小代表两者之间的差异越小,模型的稳定性越高。
在评估评分卡模型时,需要综合考虑以上指标和方法,以确保模型的准确性、稳定性和可解释性。
还可以通过交叉验证、样本外验证等方法,对模型进行进一步评估和验证,以提高模型的可靠性。
只有在经过严格的评估和验证之后,评分卡模型才能真正发挥其在信用评估和风险控制中的作用。
第二篇示例:评分卡模型是一种用于评估个人或机构信用风险的工具。
光环大数据告诉你大数据是万能的吗_光环大数据培训
光环大数据告诉你大数据是万能的吗_光环大数据培训光环大数据培训机构,数据科学正在被当做货物一样崇拜数据科学已经逐渐成为各个行业公司的重要竞争优势。
随着越来越多的公司开始引进数据管理的新模式,公司内部就可能会产生所谓的“货物崇拜”,即去学习模仿一系列行为而不去了解其中动机的现象。
在数据科学的应用方面,公司很可能会照搬数据科学背后的技术体系,而忽略了建立数据驱动型的组织文化。
这种情况颇为常见,对此我想分享一下解决之法。
数据科学是一种强大的工具,其优势在于:∙自动决策∙辅助人为决策虽然有许多公司已经认识到了数据科学的重要性,但他们往往没有匹配上有效的数据能力。
个人认为这源于对数据科学的根本性误解,这种误解让人们在忽略自身的基础上进行数据科学的技术构架。
其他的领域也存在相似的问题。
本文阐述了我对于规避此类现象的最佳办法以及如何从数据科学投资领域获得更多价值的思考。
一个典型的数据科学项目绝大多数数据科学项目和其他的IT项目一样,遵循以下的发展轨迹:∙上层管理者同意立项,组员们踌躇满志,饱含希望;∙初始原型看似前途无量,项目本身也似乎能解决一个非常重要的组织问题;∙项目中期效果不佳,没能完成既定目标;∙同时,公司管理层不再关心项目的进展,项目推进受阻;∙项目结束,但是没有能实现最初承诺的组织变革。
对于数据项目而言,这个流程本身就是有问题的。
因为数据项目意味着引入新的管理方法和组织行为。
与许多传统的IT项目不同,数据项目是对现有流程的改进,并且旨在改变组织整体的运行模式。
这个项目为什么失败了?多数人,尤其是数据科学家,会归咎于技术缺陷或是管理不当。
然而在我看来,早在初始设计没能理清项目完成后要如何适应组织运作的时候,失败就已成定局。
数据科学的人性面就我的经验来看,一个“数据驱动型组织”要做的远不止分析和测量。
从根本上说,要成为一家数据驱动的公司,就需要让数据成为公司员工日常工作生活的一部分。
这与上述项目形成了鲜明对比,那些项目更注重技术应用而非达成目标,是种典型的货物崇拜行为,例如最为常见的“企业数据湖项目”。
大数据挖掘模型中地IV和WOE详解
数据挖掘模型中的IV和WOE详解标签:IVWOE信息价值证据权重数据挖掘模型2016-03-02 15:36 28747人阅读评论(8) 收藏举报分类:数据挖掘模型(7)版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+] 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。
我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。
比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。
那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、基尼系数等等。
2.对IV的直观理解从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。
对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
数据分析必备的三大能力体系_光环大数据数据分析培训
数据分析必备的三大能力体系_光环大数据数据分析培训数据分析目前在国内互联网圈的受重视程度在逐步提升,但是问题也很突出:1、大家对于数据分析的认知和理解支离破碎,缺乏一个整体的、系统的思维框架;2、大家的视野更多局限在数据报表、BI系统、广告监测等领域,对于数据以及数据分析其实是缺乏深层次洞察的。
这篇文章就从整体框架出发,介绍一下数据分析的三大层次。
包括对数据分析的整体理解和认识,做数据分析的科学方法,以及数据分析相关的工具介绍。
一、数据分析价值观上面我介绍了:“道”指的是价值观,即如何看待数据分析的价值。
要想真正吃透这一点,必须在价值认同、工作定位和商业模式三点上取得突破。
数据分析的价值观(一)数据分析的价值认同做好数据分析,首先要认同数据的意义和价值。
一个不认同数据、对数据分析的意义缺乏理解的人是很难做好这个工作的。
放到一个企业里面,企业的CEO及管理层必须高度重视和理解数据分析的价值。
你想一下,如果老板都不认可数据分析的价值,那么数据相关的项目在企业里面还能推得动吗?然后,企业内部还需要有数据驱动的公司文化。
如果大家宁可拍脑袋做决定也不相信数据分析师的建议,那么数据分析往往是事倍功半、走一下形式而已,反之则是事半功倍。
(二)数据分析的工作定位做好数据分析,要对数据分析的价值有清楚的定位。
既不要神化数据分析,把它当做万能钥匙;也不要轻易否定数据分析的意义,弃之不用。
数据分析应该对业务有实际的指导意义,而不应该流于形式,沦为单纯的“取数”、“做表”、“写报告”。
在LinkedIn那么多年的工作时间里面,我们对数据分析的工作早已有了清晰的定位:利用(大)数据分析为所有职场人员作出迅捷、高质、高效的决策,提供具有指导意义的洞察和可规模化的解决方案。
数据分析的EOI框架当时我们还采用了一套EOI的分析框架,对不同业务的数据分析价值有明确的定位。
针对核心任务、战略任务和风险任务,我们认为数据分析应该分别起到助力(Empower)、优化(Optimize)、创新(Innovate)的三大作用。
光环大数据培训_大数据成为资产 如何能将资产变现
光环大数据培训_大数据成为资产如何能将资产变现光环大数据作为国内知名的大数据培训的机构,聘请一流名师面对面授课、课程更新迭代速度快、与学员签订就业协议,保障学员快速、高效的学习,毕业后找到满意的高薪工作!研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率及多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。
单个的数据并没有价值,但越来越多的数据累加,量变就会引起质变,就好像一个人的意见并不重要,但一千人、一万人的意见就比较重要,上百万的人或数据就足以掀起巨大的波澜,上亿的人或数据就足以改变一切。
换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”。
只有通过“加工”,我们才能实现数据的“增值”。
数据信息消费你Hold住?中国数据信息消费市场规模量级巨大,且增长迅速。
在网络能力的提升、居民消费升级和四化加快融合发展的背景下,新技术、新产品、新内容、新服务、新业态不断激发出新的数据消费需求,而作为提升信息消费体验的重要手段,大数据在电信、智慧城市、电子商务及社交娱乐等领域获得了广泛应用。
扪心自问,大数据消费市场,你沾上了几个?审时度势:大数据为什么说中国数据信息消费市场规模巨大,究其根本是大数据正在重构很多传统行业,它通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,进而从中获得有价值信息,最终衍化出新的商业模式。
商业模式的改变直接影响了整条产业链中各个环节的数据信息,更何况这种改变还在不停的延续和创新。
我们有理由相信,大数据正在以几何倍增式暴涨,不仅数据类型千变万化,数据总量更是大的惊人,而数据资源化将是企业最有价值的资产,随着大数据与传统行业的不断融合,行业定制化解决方案也即将涌现。
中国发展大数据得天独厚独特的优势和经济社会高速稳定发展,给大数据及其应用带来了巨大的发展空间,与此同时,大数据的核心技术进展和大数据应用也有助于“互联网+”新型战略性产业发展的新机遇。
数据挖掘模型中的IV和WOE详解
数据挖掘模型中的IV和WOE详解标签:IVWOE信息价值证据权重数据挖掘模型2016-03-02 15:36 28747人阅读评论(8) 收藏举报分类:数据挖掘模型(7)版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+] 1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。
我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。
比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。
那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、基尼系数等等。
2.对IV的直观理解从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。
对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
大数据在互联网金融的应用 互联网金融个人评分模型_光环大数据培训
大数据在互联网金融的应用互联网金融个人评分模型_光环大数据培训随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。
由于线上和线下的经营方式的差异,在对客户背景了解方面,互联网金融机构面临着新的挑战。
例如,在客户反欺诈方面,由于与潜在客户没有见过面,仅仅是根据用户提交的身份信息进行核实。
因此,当前互联网金融机构都很重视反欺诈。
另外,由于对客户的背景了解较少,并且由于互联网的特点,这些机构面对的客户的分布范围比较广泛,脱离了原先的受限的地域范围,而且用户数量也比线下有了极大的增长。
因此,互联网金融机构目前在对个人信用评价方面有确实存在的需求。
周期/节奏2016年9月,北京颀灵鹰泽数据科技有限公司与金融机构合作开发颀灵鹰泽数据评分模型,项目组成立,建立评分技术团队。
2016年10至11月,项目团队开始准备评分模型数据,主要包括数据合并和数据清洗2016年12至2017年1月,开始评分模型设计工作和细分分析工作2017年1月至2017年2月,开始评分模型的的开发工作、模型验证等工作,并对评分模型进行IT开发。
2017年2月至今与大拇哥财富开展家居消费贷款和装修消费贷款合作,将颀灵鹰泽个人信用评分模型应用于上述消费场景,帮助大拇哥财富快速开展上述两项消费贷款业务。
客户名称/所属分类北京汇鑫融金融信息服务有限公司(大拇哥财富)/大数据技术服务任务/目标互联网金融机构在实际业务中需要对借贷对象进行综合信用评价需求,例如大拇哥财富在开展消费贷款时,需要了解客户的详细信用状况并根据信用状况给予相应的授信额度。
另外,互联网金融机构开展的这些消费贷款需要在较短的时间内完成业务,因此需要解决信用评价的效率问题。
北京颀灵鹰泽数据科技有限公司计划在与部分金融机构开展合作的基础上,结合多方面的数据,如学历信息、消费行为数据、运营商信息和信用黑名单等,开发出颀灵鹰泽个人信用评分模型,为互金机构快速了解借贷对象的信用状况提出帮助,助力大拇哥财富公司开展家居消费贷款业务和装修消费贷款业务。
评分卡模型——精选推荐
评分卡模型⼀、评分卡模型PS:核⼼点在于我们需要⼀个判别指标来对数据进⾏打标签分类1、项⽬简介:信⽤评分技术是⼀种应⽤统计模型,其作⽤是对贷款申请⼈做风险评估分值的⽅法。
在互⾦公司等各种贷款业务机构中,普遍使⽤信⽤评分,对客户实⾏打分制,以期对客户有⼀个优质与否的评判。
评分卡主要分为三类A卡(申请评分卡)、B卡(⾏为评分卡)、C卡(贷后评分卡)。
我们主要讨论的是A卡即申请评分卡,⽤于贷前审批阶段对借款申请⼈的量化评估;2、评分卡原理:申请评分卡是⼀种统计模型,它可基于对当前申请⼈的各项资料进⾏评估并给出⼀个分数,该评分能定量对申请⼈的偿债能⼒作出预判。
客户申请评分卡由⼀系列特征项组成,每个特征项相当于申请表上的⼀个问题(例如,年龄、银⾏流⽔、收⼊等)。
每⼀个特征项都有⼀系列可能的属性,相当于每⼀个问题的⼀系列可能答案(例如,对于年龄这个问题,答案可能就有30岁以下、30到45等)。
在开发评分卡系统模型中,先确定属性与申请⼈未来信⽤表现之间的相互关系,然后给属性分配适当的分数权重,分配的分数权重要反映这种相互关系。
分数权重越⼤,说明该属性表⽰的信⽤表现越好。
⼀个申请的得分是其属性分值的简单求和。
如果申请⼈的信⽤评分⼤于等于⾦融放款机构所设定的界限分数,此申请处于可接受的风险⽔平并将被批准;低于界限分数的申请⼈将被拒绝或给予标⽰以便进⼀步审查。
3、开发流程:导⼊数据集→数据预处理→数据探索→特征⼯程→建⽴模型→建⽴评分卡4、流程demo:4.1、数据集导⼊4.2、数据预处理1) 查看数据信息了解数据信息状态,包括数据量、数据维度、数据特征类型等等2) 缺失值处理对于缺失值较少的‘家属数量’我们可以直接删除缺失值。
及对数据集进⾏去重处理。
3) 异常值检测及处理利⽤箱型图对特征进⾏可视化来检测异常数据。
通过以上特征可视化我们可以对明显偏离的样本,⽐如年龄为0,或是逾期次数过⾼进⾏盖帽或者是删除操作4.3、数据可视化分析1) 单变量可视化可以看出:(1) 客户主体集中在⽉收⼊10000以下的⼈群,⽉收⼊在15000之前的坏客率和⽉收⼊呈负相关收⼊越⾼坏客率越低,后进⼊⼀段平稳(2) 当收⼊超过20000后,坏客率⼜在上升。
数据清洗_光环大数据Python培训
数据清洗_光环大数据Python培训1.数据错误:错误类型–脏数据或错误数据•比如, Age = -2003–数据不正确•‘0’代表真实的0,还是代表缺失–数据不一致•比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币–数据重复2.缺失值处理:处理原则–缺失值少于20%•连续变量使用均值或中位数填补•分类变量不需要填补,单算一类即可,或者用众数填补–缺失值在20%-80%•填补方法同上•另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模–缺失值在大于80%•每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用。
3.离群值3.1单变量离群值处理:.绘图。
在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。
学生化(标准化)•用变量除以他们的标准误就可得到学生化数值建议的临界值:–|SR| >2 ,用于观察值较少的数据集–|SR| >3,用于观察值较多的数据集3.2多变量离群值1.绘图。
在图中找出明显的离群值2.聚类法确定离群值(不要对原有数据进行改变)聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))了解清洗后,接下来,就来学习一下Python的数据清洗吧!现在有一份心脏病患者的数据,经过问卷调查之后,最终录入数据如下:Age:年龄Areas:来自哪里,有A/B/C/D四个地区ID:患者的唯一识别编号Package:每天抽几包烟,缺失的为-9,代表不抽烟SHabit:睡眠习惯,1-早睡早起;2-晚睡早起;3-早睡晚起;4-晚睡晚起为了学习方便,假设这里就这些变量吧。
看完这个变量说明我不淡定了,这个数据存在很多问题啊!Age是年龄?158是什么鬼??还有6岁小孩,每天抽1包烟?ID是唯一编号吗?为什么有3个1号、2个5号、2个9号、2个10号?这个数据问题太多了,因此我要逐一来清洗一下,顺便学一下数据清洗方面的知识。
几种大数据分析方法_光环大数据推出智客计划送2000助学金
几种大数据分析方法_光环大数据推出智客计划送2000助学金大数据怎么分析?随着大数据技术的火爆,人工智能技术的加入更是引发了一场火爆的技术盛宴。
作为人工智能的基础技术,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里光环大数据大数据给大家介绍一下热门的十个大数据技术。
1、预测分析预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。
可为预测、优化、预报和模拟等许多其他用途而部署。
随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;当前很流行的预测分析工具当属IBM公司的SPSS,SPSS这个软件大家都已经很熟悉了,它集数据录入、整理、分析功能于一身。
用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上。
2、NoSQL数据库非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。
尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。
3、搜索和认知商业当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的围棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点——人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、google、facebook、IBM、微软、亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当然目前在认知商业这一块IBM当属领头羊,特别是当前主推的watson这个产品,以及取得了非常棒的效果。
大数据技术_北京光环大数据培训机构
大数据技术_北京光环大数据培训机构(1)数据采集:ETL对象卖力将散布的、异构数据源中的数据如干系数据、立体数据文件等抽取到暂时中间层后停止洗濯、转换、集成,末了加载到数据堆栈或数据集市中,成为联机阐发处置、数据发掘的根基。
(2)数据存取:干系数据库、NOSQL、SQL等。
(3)数据处置:自然语言处置技巧。
(4)统计阐发:假定查验、明显性查验、差别阐发、相干阐发、多元回归阐发、慢慢回归、回归猜测与残差阐发等。
(5)数据发掘:分类(Classification)、估量(Estimation)、猜测(Prediction)、相干性分组或联系关系规矩(Affinity grouping or association rules)、聚类(Clustering)、描写和可视化、Description and Visualization)、繁杂数据范例发掘(Text, Web ,图形图像,视频,音频等)。
(7)模子猜测:猜测模子、机械进修、建模仿真。
(8)成果出现:云计算、标签云、干系图等。
为什么大家选择光环大数据!大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。
讲师团及时掌握时代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。
通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。
光环大数据启动了推进人工智能人才发展的“AI智客计划”。
光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。
未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。
参加“AI智客计划”,享2000元助学金!【报名方式、详情咨询】光环大数据网站报名:手机报名链接:http:// /mobile/。
光环大数据培训_数据挖掘培训需要学习的内容汇总
光环大数据培训_数据挖掘培训需要学习的内容汇总数据挖掘培训需要学习的内容汇总。
光环大数据了解到,随着大数据时代的到来,数据挖掘的应用越来越广泛,数据挖掘岗位的职业发展前景也越来越好了。
数据挖掘的应用有哪些呢?数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
商业消费信息来自市场中的各种渠道。
例如,每当我们用信用卡消费时,商业企业就可以在信用卡结算过程收集商业消费信息,记录下我们进行消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据;当我们在申办信用卡、办理汽车驾驶执照、填写商品保修单等其他需要填写表格的场合时,我们的个人信息就存入了相应的业务数据库;企业除了自行收集相关业务信息之外,甚至可以从其他公司或机构购买此类信息为自己所用。
这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。
数据挖掘培训需要学习的内容汇总如下:1.数学统计(1)理论数学:复变函数,实变函数,泛函分析,拓扑学,积分变换,微分流形,常微分方程,偏微分方程等。
(2)应用数学:离散数学(集合,逻辑,组合,代数,图论,数论),具体数学,张量分析,数值计算,矩阵论,逼近论,运筹学,凸优化,小波变换,时间序列分析等。
(3)概率:概率论,测度论,随机过程等。
(4)统计:统计学,多元统计,贝叶斯统计,统计模拟,非参数统计,参数统计等。
金融大数据行业应用及发展全洞察_光环大数据培训
金融大数据行业应用及发展全洞察_光环大数据培训在中国经济走向新常态的转型中,在中国经济成为全球第二大经济体的发展中,在中国金融业向支持实体经济、创新驱动的转换中,大数据在金融领域的应用,成为中国金融业的新增长点和新亮点。
大数据能够充分利用金融市场形成的海量数据来挖掘用户需求、评价用户信用、管理融资风险等。
它改变了金融业的发展取向、释放了被压抑的金融需求,一开始就具有强大的生命力。
国务院颁布的《推进普惠金融发展规划(2016-2020年)》中更是直接提到“鼓励金融机构运用大数据、云计算等新兴信息技术,打造互联网金融服务平台。
”国内外各金融与类金融机构、互联网金融企业纷纷开始探索大数据的应用,希望大数据可以带来技术上的突破,实现自动化、着手升级现有风控模型体系、探索新型态基于场景化的消费金融市场、提升催收效率、建设互联网深层次大面积获客能力,从而彻底提升国家金融行业的国际竞争力。
大数据时代的三个重要趋势是:数据成为资产、行业垂直整合、泛互联网化(即技术与行业的跨界穿越与颠覆式发展)。
大数据金融的作用机制是通过云计算等智能信息工具对序列之间的联系、动态信息数据序列进行分析,大幅度提高金融风险定价的效率,降低定价成本,有效减少信息不对称问题,使得对单个客户的信用信息、消费倾向、理财习惯分析成为可能。
金融大数据应用分析未来将迎来一个大数据浪潮。
随着互联网特别是移动互联网的爆发式增长,全球数据量以几何级数增加。
现在全世界新产生的数据量每年增加40%,每两年数据翻一番。
2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为 1.8ZB。
IBM预测,2020年,全球数据总量会达到35ZB,是2000年之前总和的50倍、目前数据总量的8倍。
1.大数据在金融监管机构中的应用我国的金融行业正处于应用大数据的初级阶段,国内的金融机构经过多年发展与积累,拥有超过百TB的海量数据,而且非结构化的数据量也在不断增长。
评分卡术语【WOE】与【贝叶斯】的关系
评分卡术语【WOE】与【贝叶斯】的关系说起WOE(WeightofEvidence),大家首先想到的都是它在风控评分卡建模中的应用,用来对连续变量进行编码,通过区间划分转化成类别变量,类似One-Hot 的作用。
既然起这个题目,先抛结论:基于特征变量X所提供的补充信息,进行WOE的计算,可以对贝叶斯先验概率进行概率修正。
WOE计算公式相信点开这篇文章的盆友都看过很多关于WOE的详细介绍了,在此不多赘述,仅列出WOE的计算公式:其中i代表目标变量的第i个分箱,Badi和Goodi分别为该分箱内的坏样本数和好样本数,GoodT和BadT分别为总的坏样本数和好样本数。
贝叶斯理论在贝叶斯学派看来,若对某件事发生与否给出一个概率,首先根据当前的信息/证据得到一个先验概率,后续通过不断补充信息和证据,得到后验概率。
也就是说,我们对一件事情的认知是基于”客观“信息得到的概率,加上基于补充信息的推断,得到更加”成熟“的概率的过程。
此处可以通过公式推导理解一下这个过程。
先验概率的计算在没有特征变量X的情况下,假设我们只有标签y,通过y的枚举值(好/坏或0/1),统计每个分类下的样本数,计算如下概率:其中,BadT——坏样本数,GoodT——好样本数,P(Bad)——预测为坏样本的先验概率,P(Good)——预测为好样本的先验概率。
它们都是仅基于好/坏样本的数目占比得出的概率,没有引用来自其他特征变量的证据补充,因此都是先验概率。
故,即在一个样本集中,若坏样本的数目比好样本的少,Odds小于1,此时预测为好样本的概率更高。
但这仅仅是贝叶斯理论给出的先验概率,在实际的预测中,我们会对每个样本进行特征变量X的补充,得到更具信服力的预测结果。
后验概率的计算在贷前评分卡场景中,通过年龄、学历、信用卡授信额度、历史最大逾期月份等信息,对进件客户的相关信息进行补充,通过这些变量的值,对标签y取不同值的概率的补充,计算该进件未来可能逾期的后验概率。
woe指标
woe指标
WOE(Weight of Evidence)是一种常用的评分卡建模技术中的指标,用于评估自变量与因变量之间的关联程度。
它通过计算各个自变量在不同因变量取值下的差异来衡量其对因变量的贡献程度。
在评分卡建模中,首先需要将自变量进行分组(离散化),然后计算每个分组中坏客户的比例(坏账率),以及整体样本中坏客户的比例。
接着,通过对这两个比例进行转换(通常是取对数),求得每个分组的WOE值。
WOE值越大,表示自变量对因变量的影响越大;WOE值越小,表示自变量对因变量的影响越小。
同时,WOE值可以用于计算每个分组的IV (Information Value)指标,用于评估自变量的预测能力。
WOE指标的优点是具有可解释性强、不受异常值的影响、可以处理连续型和分类型变量等特点。
它在评分卡建模、信用评级等领域广泛应用。
数据挖掘模型中的IV和WOE详解
数据挖掘模型中的IV 和WOE详解标签:IVWOE 信息价值证据权重数据挖掘模型2016-03-02 15:36 28747 人阅读评论(8)收藏举报分类:数据挖掘模型(7 )版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+] 1.IV 的用途IV 的全称是Information Value ,中文意思是信息价值,或者信息量。
我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。
比如我们有200 个候选自变量,通常情况下,不会直接把200 个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200 个自变量中挑选一些出来,放进模型,形成入模变量列表。
那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型” 吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV 就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、基尼系数等等。
2. 对IV 的直观理解从直观逻辑上大体可以这样理解“用IV 去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2 。
对于一个待预测的个体A,要判断A 属于Y1 还是Y2 ,我们是需要一定的信息的,假设这个信息总量是I ,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,⋯⋯,Cn 中,那么,对于其中的一个变量Ci 来说,其蕴含的信息越多,那么它对于判断A 属于Y1 还是Y2 的贡献就越大,Ci 的信息价值就越大,Ci 的IV 就越大,它就越应该进入到入模变量列表中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评分卡模型剖析之一(woe、IV、ROC、信息熵)_光环大数据培训
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。
本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。
Woe公式如下:
Age#bad#goodWoe0-1050200=ln((50/100)/(200/1000))=ln((50/200)/(100 /1000))10-1820200=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-3 55200=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-5015200=ln((15/ 100)/(200/1000))=ln((15/200)/(100/1000))50以上10200=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))汇总1001000
表中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组(至于如何分组,会在以后专题中解释),#bad 和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是woe值的计算,通过后面变化之后的公式可以看出,woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为woe蕴含了自变量取值对于目标变量(违约概率)的影响。
再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))
如此相似,因而可以将自变量woe值替代原先的自变量值;
讲完WOE下面来说一下IV:
IV公式如下:
其实IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量woe值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度;从另一个角度来看的话,IV公式与信息熵的公式极其相似。
事实上,为了理解WOE的意义,需要考虑对评分模型效果的评价。
因为我们在建模时对模型自变量的所有处理工作,本质上都是为了提升模型的效果。
在之前的一些学习中,我也总结了这种二分类模型效果的评价方法,尤其是其中的ROC曲线。
为了描述WOE的意义,还真的需要从ROC说起。
仍旧是先画个表格。
数据来自于著名的German credit dataset,取了其中一个自变量来说明问题。
第一列是自变量的取值,N表示对应每个取值的样本数,n1和n0分别表示了违约样本数与正常样本数,p1和p0分别表示了违约样本与正常样本占各自总体的比例,cump1和cump0分别表示了p1和p0的累计和,woe是对应自变量每个取值的WOE(ln(p1/p0)),iv是woe*(p1-p0)。
对iv求和(可以看成是对WOE 的加权求和),就得到IV(information value信息值),是衡量自变量对目标变量影响的指标之一(类似于gini,entropy那些),此处是0.666,貌似有点太大了,囧。
上述过程研究了一个自变量对目标变量的影响,事实上也可以看成是单个自变量的评分模型,更进一步地,可以直接将自变量的取值当做是某种信用评分的
得分,此时需要假设自变量是某种有序变量,也就是仅仅根据这个有序的自变量直接对目标变量进行预测。
正是基于这种视角,我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来。
筛选合适的自变量,并进行适当的编码,事实上就是挑选并构造出对目标变量有较高预测力(predictive power)的自变量,同时也可以认为,由这些自变量分别建立的单变量评分模型,其模型效果也是比较好的。
就以上面这个表格为例,其中的cump1和cump0,从某种角度看就是我们做ROC曲线时候的TPR与FPR。
例如,此时的评分排序为A12,A11,A14,A13,若以A14为cutoff,则此时的TPR=cumsum(p1)[3]/(sum(p1)),FPR=cumsum(p0)[3]/(sum(p0)),就是cump1[3]和cump0[3]。
于是我们可以画出相应的ROC曲线。
可以看得出来这个ROC不怎么好看。
之前也学习过了,ROC曲线有可以量化的指标AUC,指的就是曲线下方的面积。
这种面积其实衡量了TPR与FPR之间的距离。
根据上面的描述,从另一个角度看TPR与FPR,可以理解为这个自变量(也就是某种评分规则的得分)关于0/1目标变量的条件分布,例如TPR,即cump1,也就是当目标变量取1时,自变量(评分得分)的一个累积分布。
当这两个条件分布距离较远时,说明这个自变量对目标变量有较好的辨识度。
既然条件分布函数能够描述这种辨识能力,那么条件密度函数行不行呢?这就引出了IV和WOE的概念。
事实上,我们同样可以衡量两个条件密度函数的距离,这就是IV。
这从IV的计算公式里面可以看出来,IV=sum((p1-p0)*log(p1/p0)),其中的p1和p0就是相应的密度值。
IV这个定义是从相对熵演化过来的,里面仍然可以看到x*lnx的影子。
至此应该已经可以总结到:评价评分模型的效果可以从“条件分布函数距离”与“条件密度函数距离”这两个角度出发进行考虑,从而分别得到AUC和IV这两个指标。
这两个指标当然也可以用来作为筛选自变量的指标,IV似乎更加常用一些。
而WOE就是IV的一个主要成分。
那么,到底为什么要用WOE来对自变量做编码呢?主要的两个考虑是:提升模型的预测效果,提高模型的可理解性。
首先,对已经存在的一个评分规则,例如上述的A12,A11,A14,A13,对其做各种函数变化,可以得到不同的ROC结果。
但是,如果这种函数变化是单调的,那么ROC曲线事实上是不发生变化的。
因此,想要提高ROC,必须寄希望于对评分规则做非单调的变换。
传说中的NP引理证明了,使得ROC达到最优的变换就是计算现有评分的一个WOE,这似乎叫做“条件似然比”变换。
用上述例子,我们根据计算出的WOE值,对评分规则(也就是第一列的value)做排序,得到新的一个评分规则。
此处按照WOE做了逆序排列(因为WOE越大则违约概率越大),照例可以画出ROC线。
可以看出来,经过WOE的变化之后,模型的效果好多了。
事实上,WOE也可以用违约概率来代替,两者没有本质的区别。
用WOE来对自变量做编码的一大目的就是实现这种“条件似然比”变换,极大化辨识度。
同时,WOE与违约概率具有某种线性关系,从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。
在此基础上,
我们可以预料到模型拟合出来的自变量系数应该都是正数,如果结果中出现了负数,应当考虑是否是来自自变量多重共线性的影响。
另外,WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。
进一步地,可以研究自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。
一般地,系数越大,woe的方差越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。
总结起来就是,做信用评分模型时,自变量的处理过程(包括编码与筛选)很大程度上是基于对单变量模型效果的评价。
而在这个评价过程中,ROC与IV 是从不同角度考察自变量对目标变量的影响力,基于这种考察,我们用WOE值对分类自变量进行编码,从而能够更直观地理解自变量对目标变量的作用效果及方向,同时提升预测效果。
这么一总结,似乎信用评分的建模过程更多地是分析的过程(而不是模型拟合的过程),也正因此,我们对模型参数的估计等等内容似乎并不做太多的学习,而把主要的精力集中于研究各个自变量与目标变量的关系,在此基础上对自变量做筛选和编码,最终再次评估模型的预测效果,并且对模型的各个自变量的效用作出相应的评价。
为什么大家选择光环大数据!
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据领域具有多年经验的讲师,提高教学的整体质量与教学水准。
讲师团及时掌握时
代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。
通过深入浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现就业梦想。
光环大数据启动了推进人工智能人才发展的“AI智客计划”。
光环大数据专注国内大数据和人工智能培训,将在人工智能和大数据领域深度合作。
未来三年,光环大数据将联合国内百所大学,通过“AI智客计划”,共同推动人工智能产业人才生态建设,培养和认证5-10万名AI大数据领域的人才。
参加“AI智客计划”,享2000元助学金!
【报名方式、详情咨询】
光环大数据网站报名:
手机报名链接:http:// /mobile/。