基于Logistic回归和结算数据的信贷早期预警模型研究
基于logistic回归的上市公司财务危机预警模型
基于logistic回归的上市公司财务危机预警模型【摘要】为了建立合理有效的财务危机预警模型,本文选择了代表公司财务健康状况的18个指标作为备选预警指标,并运用logistic过程中逐步回归的方法从中选择了3个对因变量影响显著的财务指标。
用容许度(TOL)和方差膨胀因子(VIF)两个指标对3个财务指标进行多重共线性检验。
在多重共线性不显著的情况下,对符合条件的财务数据进行logistic回归,得到了财务危机预警模型。
最后通过回代判定,发现这个模型具有较高的预测准确性。
一、财务危机预警研究概述企业财务危机是一个连续的动态过程,并直接表现为绩效指标的恶化,因此可通过一定的财务指标来构造企业的财务预警模型。
从现实情况来看,股票投资者、债权人和政府监管机构对企业财务危机预测具有很大的需求,这些需求推动了财务危机预警研究的不断深化。
国外对于财务预警模型的研究相对比较成熟,早在1966年,Beaver就运用单变量判定分析研究公司财务危机问题;Altman(1968)最早运用多变量线性判别分析(Multiple Discriminate Analysis)探讨企业危机预测问题,其发现最具解释能力的5个财务比率分别为:营运资金/总负债、保留利润/总资产、息税前利润/总资产、权益市价/总负债和销售收入/总资产。
Altman、Haldeman和Narayanan (1977)继续对Altman(1968)的原始模型修正和补充,提出一个“新Zeta模型”。
随着统计技术和计算机技术的不断发展,递归分类、人工智能及人工神经元网络等技术也逐渐被引入到财务危机预警模型中。
近年来,随着公司破产数量的增多,国内学者对公司财务危机预警模型的研究也越来越多:1999年,陈静发表了《上市公司财务恶化预测的实证分析》,该文将1998年年报后被特别处理(ST)的27家上市公司定义为财务危机公司。
陈瑜在2000年发表了《对我国证券市场ST公司预测的实证研究》一文(《经济科学》,2000年6月),该文以1999年底前曾被特别处理(ST)的58家上市公司为样本进行了分析。
基于Logistic回归模型的个人小额贷款信用风险评估及应用
基于Logistic回归模型的个人小额贷款信用风险评估及应用作者:罗方科陈晓红来源:《财经理论与实践》2017年第01期摘要:根据光大银行某分行的实际样本数据,构建二分类Logistics信用风险评估模型,对互联网金融个人小额贷款信用风险评估问题进行实证研究。
实证表明:年龄、性别、收入、职业、学历、是否持有信用卡、存贷比以及客户所属地对个人小额贷款信用风险影响非常显著;其中年龄越大、收入越稳定、学历越高、持有信用卡、存贷比越低的客户其信用等级越高;女性信用风险显著低于男性;一、二线城市客户的履约率普遍高于县地级市客户的履约率,商业银行应有针对性地对其进行有效规避和分散。
关键词:Logistic模型;互联网金融;小额贷款;信用风险;一、引言20世纪末以来,随着以互联网、大数据为代表的信息技术快速发展,金融与互联网从逐渐融合到全面渗透,“互联网金融”概念应运而生。
互联网金融凭借成本低廉、高效便捷、受众广泛的特征使其在满足客户个性化需求、服务长尾客群方面具有先天性优势,因此传统商业银行可以通过发展互联网金融模式,加快个人信贷领域产品和服务创新,达到业务处理的便捷性,提升客户体验,增加客户黏性,拓展普惠金融服务范围。
传统的小额贷款主要面向中低收入个人客户、中小企业主等群体,涉及面广、个性化需求强烈,由于缺乏统一的规范化管理,风险管理难度较大,这也是商业银行小额贷款业务发展缓慢的一个主要原因,但随着“互联网+金融”模式的兴起,大数据、云计算、社交网络、搜索引擎等互联网技术不断突破与运用,商业银行大力发展个人小额贷款业务已成为可能,但同时也应看到随之而来的欺诈风险、准入风险等,商业银行信用风险管理所考量的因素不断细化。
所以,传统商业银行如何运用互联网金融的优势来创新发展个人小额信贷业务、抢占个人信贷业务市场、高效的解决信息不对称的问题,有效的管理风险将会成为传统商业银行未来不得不考虑的问题。
信贷的核心是风险管理,而对于个人小额贷款业务而言,风险管理的核心是客户信用管理,包括客户准入管理、存量客户管理及逾期客户管理。
基于数据挖掘的银行信用风险评估与预测模型研究
基于数据挖掘的银行信用风险评估与预测模型研究随着金融市场的高速发展,银行的信贷业务日益繁荣,但信用风险也随之增加。
为了更好地评估和预测银行的信用风险,提高信贷决策的准确性和效率,数据挖掘技术成为一种重要的工具。
本文将基于数据挖掘的方法,研究银行信用风险评估与预测模型。
首先,我们需要了解银行信用风险的概念。
银行信用风险是指在银行贷款过程中出现的借款人无法按时偿还本金和利息的风险。
信用风险评估和预测的目标是根据客户的个人和财务信息,预测客户未来还款能力,为银行决策提供可靠的依据。
数据挖掘技术适用于大量的数据分析,可以挖掘出隐藏的模式和关联规则。
在银行信用风险评估与预测中,常用的数据挖掘技术包括分类、聚类、关联规则和异常检测等。
首先,分类是一种常用的数据挖掘技术。
在银行信用风险评估中,分类技术可以将客户分为违约和非违约两类。
为了构建分类模型,首先需要选择合适的特征,如客户的年龄、性别、婚姻状况、收入水平等。
然后,通过训练样本对模型进行训练,选取适当的分类算法,如决策树、支持向量机或神经网络等。
最后,利用测试样本对分类模型进行验证和评估,并进行模型的调优。
其次,聚类是另一种常用的数据挖掘技术。
在银行信用风险评估中,聚类可以将客户根据其相似性分为不同的群组,从而揭示出潜在的信用风险。
聚类可以帮助银行更好地理解不同客户群体的特点,并针对不同群组制定不同的风险管理策略。
聚类的方法有很多种,如基于密度的DBSCAN算法、基于距离的K-means算法等。
另外,关联规则是用于挖掘数据集中项之间隐含关联关系的技术。
在银行信用风险评估中,关联规则可以帮助银行发现不同变量之间的关联性,从而更好地评估客户的信用风险。
关联规则的常用算法包括Apriori算法和FP-Growth算法。
通过关联规则的挖掘,银行可以识别出客户在还款能力上存在的弱点,从而更加准确地预测客户的信用风险。
最后,异常检测也是一种重要的数据挖掘技术。
在银行信用风险评估中,异常检测可以帮助银行发现异常的信用行为,如逾期还款、欺诈等。
基于logistic回归模型对中小微企业信贷风险研究
基于logistic回归模型对中小微企业信贷风险研究作者:陈大睿李颖李泽坤来源:《商场现代化》2022年第22期基金項目:2021年度山东省级大学生创新创业训练计划项目“基于logistic回归模型的中小微企业信贷风险研究”(S202113320130)摘要:文章主要是针对中小微企业信贷风险方面进行研究,建立金融信用风险评价指标体系,构建 logistic 回归模型对企业风险进行预测,以违约概率 P=0.5 为临界值,模型的预测准确率为 81.25%,针对剩余可贷款企业进行定性和定量分析,建立非线性规划函数。
求解该函数得到银行对六大类供应链金融体系中各个企业的信贷策略,如贷款额度高的企业,银行会适当降低贷款的年利率。
关键词:信贷风险;信贷策略;logistic 回归模型;非线性回归引言:在当前经济蓬勃发展的大环境下,中小微企业的规模占比已达到全部企业数量的98%,中小企业很好地满足了我国的民生需求,促进国内消费,推动产品出口销售,在我国经济结构布局中扮演越来越重要的地位。
不过小微企业却因为他们规模相对较小,又没有抵押资产等因素,所以一直面临着融资难的问题。
商业银行一般是根据信贷政策、企业的贸易票据信息以及上中下游企业的影响力,向能力强大、供求关系稳定的企业进行放贷,并可能对信用高、信贷风险小的企业予以利息优惠。
因此,我们主要从商业银行信贷风险视角出发探究中小微企业在银行贷款方面的投资问题。
一、数据的处理1.数据来源本文所采用的数据来源为2020全国大学生数学建模C题提供的123 家有信贷记录企业的相关数据。
2.数据预处理由于数据庞大且复杂,因此对数据进行预处理,剔除无效信息,利用 Python 软件进行数据归总:信誉评级为 D 的企业,银行不予考虑贷款资格,利用Excel软件直接剔除信誉评级为D 企业的相关数据;显示作废发票在本次交易中无实质意义,因此在进销项发票数据中将作废发票进行筛除;利用 Python 软件对筛选过后的进销项价税数据按照不同企业不同年度进行归总。
基于Logistic回归模型的信用风险预测研究
基于Logistic回归模型的信用风险预测研究随着金融业的不断发展,个人贷款等信用类业务已经成为金融机构的重要收入来源。
然而,信用风险却一直是这些业务的难题之一。
因此,如何准确评估个人信用风险,成为了金融机构必须面对的挑战,也成为了许多学者关注的焦点。
Logistic回归模型是一种简单、有效的预测模型,它已经被广泛应用于金融信用风险预测的研究中。
Logistic回归模型是一种分类模型,适用于输出变量为二元结果(0或1)的情况下。
在金融领域中,我们将是否能够按时偿还贷款视为二元结果,并使用各种影响变量来预测个人是否能够按时偿还贷款。
例如,个人的职业、收入、征信记录和负债情况等因素都会影响其还款能力。
我们可以将这些因素统称为“特征”,并使用它们来训练Logistic回归模型。
Logistic回归模型是一种非常基础的模型,但是在金融领域中,它已经被广泛地使用。
这是因为Logistic回归模型可以很好地处理金融领域非线性、非正态、非对称等特征,而且很容易实现、解释和验证。
例如,在一个实际的信用卡客户数据中,我们可以使用各种特征来训练Logistic回归模型,来预测不良账户概率。
在这个模型中,特征可以是客户的性别、年龄、收入、教育程度、家庭情况、就业情况、是否有担保人等。
尽管这些特征没有明确的数学公式和规律,但是它们都可以对客户的信用风险产生重要影响。
但是,Logistic回归模型也有自身的缺陷。
例如,它假设各特征之间是独立的,但是在现实生活中,这些特征之间往往是相互关联的。
此外,它仅适用于二元分类问题,无法处理多元分类问题。
在金融领域,这种限制可能会影响到我们对信用风险的准确评估。
对于金融机构来说,评估个人信用风险是非常重要的。
过度风险可能导致机构的资产负债表严重失衡,从而陷入危机。
因此,在评估信用风险时,机构应该采用合适的方法,例如Logistic回归模型,并结合其它方法来提高预测精度。
此外,机构还应该根据实际情况和风险承受能力,采取相应的措施来控制信用风险。
基于大数据分析的个人信用评估与信贷风险预测模型研究
基于大数据分析的个人信用评估与信贷风险预测模型研究随着金融科技的迅猛发展和大数据技术的成熟应用,个人信用评估和信贷风险预测变得更为准确和可靠。
本文将探讨基于大数据分析的个人信用评估与信贷风险预测模型的研究,并探讨其在金融行业的应用和挑战。
一、概述个人信用评估和信贷风险预测是金融机构进行信贷业务的关键环节。
过去,传统的信贷评估主要依赖于客户的个人资产和还款记录等有限信息。
然而,这种评估方式存在信息不全、评估精度低、潜在风险无法识别的问题。
而基于大数据分析的个人信用评估与信贷风险预测模型则通过集成海量数据、构建全面的信贷风险模型,能够更准确地评估个体信用状况,提高信贷业务的效率和风险控制能力。
二、基于大数据的信用评估模型1. 数据收集和整合在构建基于大数据的信用评估模型时,首先需要收集和整合各种个人数据,包括但不限于财务状况、消费记录、社交网络活动、手机定位数据等。
这些数据来自于多个渠道,如银行、电商平台、社交媒体等。
2. 特征提取和选择通过数据预处理和挖掘技术,对收集到的海量数据进行特征提取和选择。
这一步旨在从庞杂的数据中选取对信用评估具有重要意义的特征,并剔除不相关或冗余的特征。
通常会采用机器学习算法和统计方法来辅助进行特征选择。
3. 模型构建和训练基于提取的特征,建立合适的信用评估模型。
常用的模型包括决策树、逻辑回归、支持向量机、神经网络等。
利用历史数据进行模型训练和参数优化,以捕捉相关特征与个体信用之间的潜在关系。
4. 评估模型性能完成模型训练后,需要进行模型性能评估。
可以采用精确度、召回率、F1分数等评估指标,计算模型的准确性和可靠性。
此外,还可以通过交叉验证等技术来评估模型的稳定性和泛化能力。
三、基于大数据的信贷风险预测模型1. 数据获取和整理信贷风险预测模型依赖于大量的历史数据,因此需要获取和整理贷款申请、客户信息、还款记录等相关数据。
这些数据通常来自于金融机构内部的数据库,同时也可以结合外部数据源获取更多的信息。
Logistic回归模型在信用风险分析中的运用
Logistic回归模型在信用风险分析中的运用信用风险分析是金融领域的重要主题之一,金融机构需要通过评估个体或组织的信用状况来决定是否给予贷款或信用额度。
为了实现准确的信用评估,Logistic回归模型成为了一种常用的方法。
Logistic回归模型基于Logistic函数,可以将线性回归模型的输出转换为概率值。
在信用风险分析中,Logistic回归模型可用于分类借款人的违约风险。
具体而言,模型可以根据借款人的历史数据、财务指标、信用记录等特征,预测借款人是否会违约。
这种能够将输出转换为概率的特性使得Logistic回归模型在信用风险分析中非常有用。
在应用Logistic回归模型进行信用风险分析时,需要先收集借款人的相关数据,并将其转化为可以用于模型的特征。
这些特征可以包括性别、年龄、收入水平、历史贷款记录、信用评分等。
接下来,将这些特征输入到Logistic回归模型中进行训练。
模型的训练过程通常使用最大似然估计法,通过最小化训练数据上的对数似然损失函数来估计模型的参数。
完成模型训练后,可以使用该模型对新的借款人进行违约预测。
模型会将输入特征值通过线性回归计算得到一个数值,然后应用Logistic函数将其转换为一个概率值。
如果概率超过一定阈值,可以判定借款人为高违约风险,从而减少对其贷款或降低信用额度。
需要注意的是,在应用Logistic回归模型进行信用风险分析时,一定要选择恰当的特征并进行特征工程,以确保模型的准确性。
同时,模型的性能评估也是关键的一步,可以使用混淆矩阵、准确率、精确率、召回率等指标来评估模型的预测效果。
通过迭代和优化模型,可以逐渐提升模型的性能。
总而言之,Logistic回归模型在信用风险分析中的运用具有重要的意义。
它能够将线性回归模型的输出转换为概率值,从而帮助金融机构准确地评估借款人违约风险,并做出相应的决策。
然而,模型的准确性和性能评估是使用Logistic回归模型进行信用风险分析的关键步骤,需要慎重进行。
金融风控模型中的不良贷款预测与评估技术研究
金融风控模型中的不良贷款预测与评估技术研究近年来,随着金融业的快速发展与市场竞争的加剧,银行面临着越来越多的风险挑战。
其中,不良贷款风险是银行面临的最为严重的风险之一,因此,建立准确可靠的不良贷款预测与评估技术尤为重要。
不良贷款预测与评估的目的是根据历史数据和各种特征变量,对未来可能出现的不良贷款情况进行预测和评估。
通过建立合适的风险模型,银行可以及时识别潜在的风险贷款,采取相应的措施进行风险管理。
现有的金融风控模型中,常用的不良贷款预测和评估技术包括传统的统计模型和机器学习模型。
传统的统计模型包括Logistic回归模型、判别分析模型等,这些模型建立在一定的假设条件下,通过建立指标体系进行不良贷款的预测和评估。
而机器学习模型则利用大数据和强大的计算能力,通过自动学习和优化算法,构建更加准确和精细化的不良贷款预测模型。
在不良贷款预测和评估技术中,常用的特征变量包括客户的个人信息、贷款信息、历史信用记录等。
通过分析客户的个人信息和贷款信息,可以了解客户的还款能力和还款意愿;而通过分析客户的历史信用记录,可以评估客户过去是否有逾期还款的记录等。
根据这些特征变量,可以构建合适的预测模型,对不良贷款进行准确预测。
当建立不良贷款预测模型时,首先需要进行数据预处理。
这包括数据清洗、缺失值处理和特征选择等步骤。
数据清洗是指对数据中的异常和错误值进行处理,保证数据的质量和准确性;缺失值处理是指对缺失值进行填充或删除,避免对模型建立带来影响;特征选择是指通过各种算法和方法,选择对不良贷款预测有较大影响的特征变量,提高模型的预测能力。
在选择合适的不良贷款模型时,需要考虑模型的可解释性、预测准确性和稳定性等因素。
传统的统计模型具有较好的可解释性,可以分析指标的影响因素和相关关系;而机器学习模型则具有更高的预测准确性和稳定性,适用于大规模数据的建模和预测。
在模型评估方面,常用的评估指标包括准确率、召回率、F1值等。
准确率是指模型预测结果中正确预测的比例;召回率是指模型正确预测的正样本占所有正样本的比例;F1值是综合考虑了准确率和召回率的综合评价指标。
基于logistic回归的上市公司财务危机预警模型
20 0 8年第 6 期 总第 2 期 5
经济研究导千 U
ECONOM I C RES EARCH G UI DE
No6, 0 . 2 08 S ra .5 e ilNo2
基于li c 归的 os gt 回 上市公司财务危机预警模型 i
纵观 国内外所有关于财务危机预警问题的研究 , 主要涉
及 到 两 个 方 面 的 问 题 : 是 财 务 危 机 概 念 的 界 定 ; 是 预 测 一 二 变量( 别指标 ) 判 的选 择 和 预 警 模 型 的 建 立 ( 业 财 务危 机 是 企
一
处理 (T 视为陷入 财务危机 的上市公 司, 其确定为本 文的 S) 将
I ii  ̄g t sc回归等方法构建基 于上市公司的财务危机预警的 Igsc  ̄ ii 模型 , t 经过检验 , 具有 一定 的实际应用价值 。
关键 词 : 因子分 析 ; 财务 危 机 预 警 ; gsc回 归 l ii o t 中 图分 类 号 :809 文 献 标 志 码 : 文章 编 号 :6 3 2 1 20 )6 09 —4 F3, A 17 — 9 X(0 8 0 — 0 2 0
( ) 一 样本 的选 取
结合前人 的分析 ,并根据我 国上市公司的实际情况 , 我 们将上市公司因财务状况异常而被 “ 特别处理”s (T公司 ) 认
定 为 公 司发 生 了“ 务 危机 ” 财 。理 由 如下 :
根据我国上市公司的年报披露制度 , 上市公司公布其 当 年年报 的截止 日期 为下一年的 4月 3 0日, 故上市公 司( 1 t ) - 年的年报和其在 t 年是否被特别处理这两个事件几乎是 同时 发生 的。 hsn 1 8 ) O l (9 0 的研究表明: o 采用破产之后获得 的信息
信用风险评估的预警指标和模型
信用风险评估的预警指标和模型信用风险评估是一个重要的金融管理工具,用于衡量个人或机构在未来违约的可能性。
为了能够及时发现潜在的风险并采取相应的措施,预警指标和模型的使用变得至关重要。
本文将介绍信用风险评估的预警指标和模型,以及其在风险管理中的应用。
一、信用风险预警指标1. 违约概率违约概率是衡量个人或机构未来违约可能性的指标之一。
它通常基于历史数据、财务指标、市场前景等因素进行计算。
违约概率高的个人或机构意味着其信用风险较大,需要采取相应的风险管理措施。
2. 信用评级信用评级是金融机构对个人或机构信用状况的评估结果。
通常分为AAA、AA、A、BBB、BB、B、CCC等级。
评级较低的个人或机构被视为信用风险较高,需要进行严格的监控和管理。
3. 财务指标财务指标是评估个人或机构财务状况的重要参考标准。
例如,个人的债务比率、流动比率、盈利能力等指标,以及企业的资产负债表、利润表、现金流量表等报表都是衡量信用风险的重要指标。
4. 市场指标市场指标是评估个人或机构信用风险的重要参考数据。
市场指标包括股票价格、债券收益率、信用违约互换等金融市场数据。
这些指标可以反映市场对个人或机构信用状况的预期,对风险管理有重要意义。
二、信用风险预警模型1. Logistic回归模型Logistic回归模型是一种常用的信用风险预警模型。
它基于个人或机构的历史数据,通过建立多个变量之间的关系,预测个人或机构未来违约的可能性。
该模型可以将各种风险因素纳入考虑,对信用风险进行较为准确的预测。
2. 神经网络模型神经网络模型是一种模拟人脑神经系统工作原理的数学模型,也常用于信用风险预警。
该模型通过构建多层神经元之间的连接,将输入的个人或机构信息转化为输出的违约概率,提供了一种复杂问题建模的方法。
3. 决策树模型决策树模型是一种基于树形结构的预测模型,也常用于信用风险评估。
该模型通过对历史数据进行分析,构建树形结构,根据个人或机构信息的不同特征进行不同路径选择,最终预测违约概率。
金融不良贷款预测模型研究
金融不良贷款预测模型研究随着经济的快速发展,金融业也不断迎来新的机遇和挑战。
一些金融机构为了增加收益,往往会放宽对于借款人的审核条件,从而导致一些不良贷款的产生。
不良贷款不仅会给金融机构带来巨大的损失,更会对整个金融体系造成严重的风险。
因此,金融机构必须更加关注和预估不良贷款的产生,及时采取有效的对策。
针对不良贷款的预测问题,很多学者和金融机构都制定了各种预测模型。
其中,最为常用和有效的是三种:Logistic回归模型、神经网络模型和支持向量机模型。
Logistic回归模型是预测不良贷款最常用的统计工具。
该模型通过对不良贷款和良好贷款两种样本之间的特征参数进行分析,建立分类模型,从而实现不良贷款的预测。
在预测模型的构建过程中,需要进行多元回归分析,包括回归分析的变量选择、解释变量的标准化、统计学验证等一系列工作。
Logistic回归模型在实践中的精度很高,具有广泛的应用前景。
神经网络模型是借鉴神经元网络的思想,通过计算建立数据之间的非线性关系,并利用误差反传的方法进行模型的训练。
神经网络模型相较于传统统计方法,更适合处理高维、非线性的数据分析问题。
在不良贷款的预测中,神经网络模型具有更好的效果,同时也能够应对一些特殊情况,如数据噪声干扰、模型参数调整等问题。
支持向量机模型是一种新型的分类算法,该模型能够通过寻找分类超平面,以最大化两类数据之间的间隔,从而达到分类的目的。
支持向量机模型具有优秀的泛化能力,对于非线性数据的分割也具有天然的优势。
不良贷款的预测也是一种适合支持向量机模型的问题。
但是,在数据集较大的情况下,支持向量机模型计算量较大,训练时间也较长。
不良贷款的预测模型的使用需要根据实际情况灵活选择,并且应用前需要进行数据的整理、选择变量和模型评估等一系列工作。
同时,预测模型还需要不断地进行优化和改进,以期在实践中取得更好的效果。
除了不良贷款预测模型,信用评估模型也是金融机构需要并且经常使用的一种预测工具。
基于LOGISTIC回归下财务风险预警模型的构建
基于LOGISTIC回归下财务风险预警模型的构建摘要:财务预警模型构建对企业的经营营运有着重要的指导意义,对企业财务工作人员与管理者的管理方针有着很强的影响。
文章总结了以往的预警模型的构建,并运用逻辑回归得出了较实用的预警模型。
关键词:财务风险 logistic回归独立样本t检验中图分类号:f275 文献标识码:a文章编号:1004-4914(2013)07-106-02随着市场经济的不断发展,我国的金融市场规则也愈发完善。
不少公司也因为扩张速度过大,经营不善等原因陷入财务困境之中。
不少学者开始研究判别企业的财务风险预警模型。
从最初的单因素判定模型到借鉴z-score方法改进系数与变量得出的改进z分法,再到主成分回归得出判定模型。
同时另外一些学者使用单位概率模型,利用逻辑回归或probit回归,得出概率模型判定企业陷入财务困境中的概率。
一、回归方法的简介与选择回归分析中拟合程度较好的偏最小二乘法与岭回归不太适用于财务预警模型的构建。
因为偏最小二乘法与岭回归虽然对模型的拟合程度较高,但由于各自的方法较为繁琐,其中的个别系数需要人为判断,因此两种方法对财务风险模型的构建不是很成熟。
岭回归的k系数就是人为得到的,k值越大则回归系数比较平稳,但误差也随之增大,因此在较复杂的多变量模型中岭参数的k值确定较难。
本文中采用比较成熟的单位概率模型中的逻辑回归进行构建模型。
它是含定性变量的模型。
由于线性回归中的基本假设之一,就是因变量是随机的。
然后一个企业是否陷入财务困境只有两种情况,显然不是随机的,因而不能直接采取线性模型进行拟合。
由于定义企业陷入财务危机的情况为0,财务状况良好的情况为1,使得y值只有两个可能性,即0与1。
在这种情况下一般的线性模型yi=β0+β1x1不符合一般假设,但yi的均值有着比较特殊的意义,yi是0-1型分布,它有如下的分布律:p(yi=1)=πi,p(yi=0)=1-πi。
因此有y的期望值为,e(yi)=1*πi+0*(1-πi)=πi。
《基于Logistic模型的中小企业信用风险评估研究》
《基于Logistic模型的中小企业信用风险评估研究》一、引言在经济发展和金融市场蓬勃的背景下,中小企业(SMEs)对于国民经济的贡献日益突出。
然而,由于规模较小、财务状况不稳定、抗风险能力较弱等因素,中小企业的信用风险评估变得尤为重要。
信用风险评估是对企业履行还款责任的信任度进行衡量,有助于银行和其他金融机构更准确地识别风险、优化贷款策略,从而保护其资产质量。
Logistic模型作为一种常见的统计模型,因其适用于处理分类问题且对数据分布没有严格限制而广泛应用于信用风险评估领域。
本文旨在探讨基于Logistic模型的中小企业信用风险评估研究,为中小企业信用风险管理提供科学、客观的参考依据。
二、文献综述以往研究指出,中小企业信用风险评估对于金融市场的稳定发展具有重要意义。
许多学者和专家运用不同的方法对信用风险进行了研究,如多元线性回归模型、决策树模型等。
其中,Logistic模型因其良好的分类性能和稳健性在信用风险评估中得到了广泛应用。
在Logistic模型的应用中,主要关注企业财务指标、市场环境指标、运营指标等关键因素对信用风险的影响。
通过对这些因素的合理组合和预测,能够有效地提高信用风险评估的准确性和可靠性。
三、Logistic模型的应用1. 模型构建本研究选取了若干关键指标作为自变量,如企业财务状况、经营能力、市场环境等,以信用风险为因变量构建Logistic回归模型。
在模型构建过程中,通过数据的筛选和预处理,确保了数据的准确性和可靠性。
此外,还对模型进行了优化和调整,以提高预测的准确性。
2. 模型应用Logistic模型应用于中小企业信用风险评估时,可以分析不同指标对企业信用风险的影响程度。
例如,企业的负债率、盈利能力、市场占有率等关键因素均与信用风险密切相关。
通过对这些因素进行量化分析,能够得出企业在特定时期的信用风险等级和风险大小。
这有助于金融机构在制定贷款策略时更准确地判断企业信用风险水平,降低违约率。
关于商业银行信用风险管理的文献综述
A)关于商业银行信用风险管理的文献综述摘要:随着银行业自身的快速发展以及业务量的增加,信用风险问题在银行的经营过程中逐渐暴漏出来,这就在一定程度上要求银行业对信用风险进行管理以降低其发生的可能性。
当前,国内外学者对信用风险管理的研究越来越多,使得银行业可以根据自身的实际情况选择相应的风险管理方法和工具。
本文主要从银行信用风险的定义、银行内部评级体系和银行信用风险量化几个方面对当前的信用风险管理研究进行了文献综述,最后对国内外信用风险管理的相关文献做出了总结。
关键词:商业银行,信用风险,风险管理,文献综述一、关于银行信用风险定义的研究1。
风险的定义风险(Risk)最早起源于拉丁美洲人的日常生活用语“Resum”,原意是“因航海或海上活动,其可能伴随而来的各种无法预测的危险或风险”。
而《辞海》中将风险定义为“人们在生产建设和日常生活中遭遇能导致人身伤亡、财产受损及其他经济损失的自然灾害、意外事故和其他不测事件的可能性”。
在我国的《中国大百科全书(经济学)》中,提出“风险通常是指由于当事者主观上不能控制的一些因素的影响,使得实际结果与当事者的事先估计有较大的背离而带来的经济损失"。
2。
银行信用风险的定义亨利·范·格罗(2005)将信用风险定义为债务人或金融工具的发行者不能根据信贷协定的约定条款支付利息或本金的可能性,是银行业固有的风险.闰晓莉、徐建中(2007)认为信用风险狭义上一般是指借款人到期不能或不愿履行还本付息协议,致使银行金融机构遭受损失的可能性,即它实际上是一种违约风险。
广义上是指由于各种不确定因素对银行信用的影响,使银行金融机构经营的实际收益结果与预期目标发生背离,从而导致银行金融机构在经营活动中遭受损失或获取额外收益的一种可能性.二、关于银行内部评级体系的研究1。
银行进行内部评级必要性的研究武剑(2005)认为内部评级作为信用风险的分析工具和技术平台,在银行风险管理中处于核心地位。
银行信贷风险预警模型构建与验证
银行信贷风险预警模型构建与验证在金融领域中,银行信贷风险是一个关键的问题。
为了保障银行的稳定经营和客户资金的安全,构建有效的信贷风险预警模型变得至关重要。
本文将探讨银行信贷风险预警模型的构建与验证的过程和关键步骤。
首先,构建银行信贷风险预警模型的第一步是数据收集和预处理。
银行通常拥有大量的交易数据、贷款信息和客户信用评级等数据。
通过收集这些数据,并进行适当的预处理,可以更好地理解银行的贷款业务和风险暴露情况。
数据预处理包括数据清洗、缺失值处理、异常值处理和特征选取等步骤。
通过预处理,可以减少噪声数据的影响,提高模型的准确性和可靠性。
其次,银行信贷风险预警模型的构建需要选择合适的建模方法和算法。
常用的建模方法包括传统的统计方法和机器学习算法。
统计方法如Logistic回归、决策树和支持向量机等,可以根据历史数据和特定的风险指标来建立模型。
机器学习算法如神经网络、随机森林和梯度提升树等,通过学习大量数据和模式来预测信贷违约的可能性。
选择合适的建模方法和算法取决于数据的特点和模型的需求。
在模型建立阶段,特征工程是提高模型性能的关键步骤。
通过选择和创建适当的特征变量,可以更好地反映信贷风险的特征和规律。
特征工程可以包括特征选择、特征变换和特征组合等处理。
例如,可以根据经验选择相关的特征变量,如贷款金额、借款人收入和贷款用途等。
还可以通过数值变换、归一化和标准化等方法对特征进行处理,以便更好地应用于模型建立。
特征组合可以将不同的特征组合成更有意义和更高预测能力的新特征。
在模型构建完成后,需要进行模型验证和评估。
模型验证是评估模型预测能力和泛化能力的过程。
常用的模型验证方法包括训练集和测试集的划分、K折交叉验证和留一验证等。
通过将数据集划分为训练集和测试集,可以用训练集来训练模型,用测试集来评估模型的预测性能。
K折交叉验证通过将数据集划分为K个子集,依次使用其中一个子集作为测试集,剩余的K-1个子集作为训练集,最后对K次实验结果进行统计分析。
金融风控中的信贷风险模型开发教程
金融风控中的信贷风险模型开发教程在金融行业中,信贷风险是指银行或其他金融机构面临的借贷行为可能导致的资金损失的潜在风险。
为了有效地管理信贷风险并降低损失,金融机构通常采用信贷风险模型进行风险测量和预测。
本文将介绍信贷风险模型的开发过程和相关的技术。
首先,信贷风险模型的开发需要清晰定义模型的目标和假设。
通过对信贷风险的理解和分析,确定需要预测和衡量的风险指标,例如违约概率、违约损失等。
另外,模型的开发还需要明确假设和约束条件,例如数据的可用性和质量、模型的稳定性和解释性等。
第二步是数据收集和准备。
信贷风险模型的开发需要大量的历史数据来训练和验证模型。
金融机构可以从内部和外部多个数据源收集数据,例如客户的个人信息、财务报表、信用报告等。
在数据准备阶段,需要对数据进行清洗、转换和标准化,以确保数据的一致性和可用性。
接下来是特征选择和提取。
在建立信贷风险模型时,选择合适的特征对于模型的性能和准确性至关重要。
特征可以来源于客户的个人信息、财务状况、历史信用记录等。
在进行特征选择时,可以使用统计方法、机器学习算法或专家经验进行筛选。
同时,还可以通过特征工程将原始数据转化为更有意义和有效的特征。
然后是模型选择和建立。
信贷风险模型可以使用多种建模方法,例如Logistic回归、决策树、支持向量机等。
在选择模型时,需要考虑模型的性能、解释性、计算效率等因素。
建立模型时,可以使用历史数据进行训练,并使用交叉验证等技术来评估和调整模型的参数和超参数。
模型的评估和验证是信贷风险模型开发中的重要环节。
在评估阶段,可以使用一些指标来衡量模型的性能,例如准确率、召回率、F1值等。
此外,也可以使用ROC曲线和AUC值来评估模型对不同阈值下的分类能力。
验证阶段则是使用模型对新数据进行预测和验证,并与实际情况进行比对来评估模型的泛化能力和预测效果。
最后是模型部署和监测。
一旦信贷风险模型经过验证并达到要求,就可以进行部署并应用于实际业务中。
信用风险理论、模型及应用研究
信用风险理论、模型及应用研究信用风险是金融领域中的一个重要概念,指的是借款人或债务人违约的可能性。
这种风险不仅对金融机构和投资者造成潜在的损失,还对整个经济产生着重要的影响。
因此,对信用风险进行理论、模型和应用研究具有重要的意义。
信用风险理论可以追溯到20世纪初,当时主要是以定性分析为主。
随着金融市场的发展和复杂化,定性分析已经无法满足金融机构对信用风险评估的需求。
因此,定量分析逐渐成为信用风险理论研究的主流。
其中最具代表性的理论是5C理论,该理论从借款人的信用、偿还能力、资本、经营环境、担保五个方面对信用风险进行评估。
还有Z评分模型、Logit模型等统计方法的应用,这些方法通过建立数学模型来预测借款人的违约概率。
信用风险模型的建立与应用是信用风险理论发展的重要方向。
目前比较流行的信用风险模型包括KMV模型、Credit Metrics模型、Credit Portfolio View模型等。
其中,KMV模型基于Merton的违约债券定价模型发展而来,通过计算借款人的违约概率和债务的价值来评估信用风险。
Credit Metrics 模型是一种基于VaR思想的模型,通过计算借款人信用状况的概率分布来评估信用风险。
Credit Portfolio View模型则是一种基于宏观经济因素分析的模型,通过分析宏观经济因素对借款人信用的影响来评估信用风险。
这些信用风险模型的应用,不仅提高了金融机构对信用风险评估的准确性和效率,还为投资者提供了更加科学的决策依据。
除了在金融机构和投资者中的应用外,信用风险理论还在其他领域得到了广泛应用。
例如,在保险行业,信用风险对保险公司的经营状况产生着重要影响。
保险公司可以通过对信用风险进行评估和控制,制定更加科学合理的保险费率。
在监管领域,信用风险也是监管机构的重点之一。
监管机构通过对金融机构的信用风险进行评估和监测,可以更好地把握金融市场的风险状况,为宏观调控提供更加科学的依据。
基于机器学习的信贷违约风险预测模型研究
基于机器学习的信贷违约风险预测模型研究随着金融市场的不断发展和信贷业务的蓬勃发展,信贷违约风险成为了银行和金融机构面临的重要挑战之一。
为了有效地评估和管理信贷违约风险,机器学习技术被广泛应用于信贷领域。
本文将探讨基于机器学习的信贷违约风险预测模型的研究。
首先,我们需要了解什么是信贷违约风险。
信贷违约风险是指借款人在还款期限内无法按时偿还借款本金和利息的可能性。
对于银行和金融机构来说,信贷违约风险可能导致巨大的经济损失,因此准确地预测和评估信贷违约风险成为了一项重要的任务。
传统的信贷违约风险评估方法主要基于统计模型,如Logistic回归模型和决策树模型。
然而,这些传统模型在处理大规模数据和复杂关系时存在一定的局限性。
相比之下,机器学习模型具有更强大的数据处理和模式识别能力,能够更好地应对信贷违约风险预测的挑战。
在机器学习领域,有许多经典的算法可以用于信贷违约风险预测。
其中,支持向量机(Support Vector Machine,SVM)是一种常用的分类算法。
SVM通过将数据映射到高维空间,并找到一个最优的超平面来进行分类。
通过训练大量的样本数据,SVM能够学习到信贷违约的特征和规律,并用于预测新的借款人是否会发生违约。
另一个常用的机器学习算法是随机森林(Random Forest)。
随机森林是一种集成学习算法,通过构建多个决策树并进行投票来进行分类。
相比于单一的决策树模型,随机森林能够更好地处理噪声和过拟合问题,提高信贷违约风险预测的准确性。
此外,深度学习模型也在信贷违约风险预测中得到了广泛应用。
深度学习模型,如神经网络,通过多层次的神经元网络来学习复杂的特征和规律。
通过大规模的数据训练,深度学习模型能够从海量的特征中提取出最有用的信息,并用于信贷违约风险的预测。
然而,基于机器学习的信贷违约风险预测模型也存在一些挑战和限制。
首先,机器学习模型需要大量的样本数据进行训练,而在信贷领域,可用的样本数据往往是有限的。
基于Logistic回归的逼仓风险预警模型研究
( 2 ) 基 差 波 动 风 险△ 衡 量 期 货 市 场 第 t 日 基 差 较 前 N 日 的 基 差
个 交易 日为存 在逼 仓风 险 的交 易 日 另 30 个 交 易 日为不 存 在 逼 仓风
均 值 的变 化 趋 势
,
,
研 究 表 明 期 货 价 格 应 该 随 着 交 割 日 的 临 近 而 向现
,
时 也 成 对 地 在 S H F E 上 市 交 易 的 天 然 橡 胶 合 约 中选 取 了 R u 0 6 0 6 期
标人 手
、
,
通 常在 分 析 某 合 约 是 否 存 在 逼 仓 风 险
、
货合 约从 20 0 6 年 1 月
4
号 至 2 月 2 2 号 的共 30 个 交 易 数 据 作 为 没
经 营管理
基于
L
o
g istic
回 归 的 逼 仓 风 险预 警模 型 研 究
上 海大
学 国 际 工 商 与 管理 学 院
鲁姣
畛
“
一
、
引言
”
,
为第 f 日的现 货价格 瓦 为前 N 日的基 差 均 值
,
。
逼 仓风 险 是 指 期货 市 场 参 与者 以 资金 为 手段 通 过 掌 握 空 盘
.
( 3 ) 采 用 持 仓 量 波 动 风 险△。 来 衡 量 市 场 中 的 过 度 投 机 及 人 为 控
,
o 根 据论 文研 究 的实际 情况 我们设 期货逼 仓风 险 L g is tic 回归 预
,
o 映 和衡量 期货市场逼 仓 风 险的 L
方法如下
。
( 1 ) 采 用 期 货 价 格 波 动 风 险 △ 衡 量 市 场 中非 理 性 投 机
基于Logistic回归原理的个人综合消费贷款信用风险计量模型研究
由于 个 人 消 费 类 贷 款 金 额 不 高 , 申请 较 为 简 单 ,借 款 人 提 供 的 材 料 也 不 是 很 严 格 ,这 就 造 成 了借 款 人 在 申 请 贷 款 时 故 意 制 造 虚 假 信 息 或 隐 瞒 自己 的 真
款信 用风 险计 量模 型 的基 本 方法。 》 关 ■诩 综合 消 费贷 款 ;Lg t@ 归 ;数 据 处理 方法 o ii sc
称 状 况 导 致 在 交 易完 成 前 后 分 别 产 生 逆
向 选 择 和 道 德 风 险 问题 。
方 式 ,和信 贷 市 场 信 息 不对 称 的大 环 境 。导 致 了现 在 商 业 银 行 对 申请 个 人 消 费 贷 款 的 客 户 ,有 比 较 严 格 的 要 求 。 客 户 基 本 必 须 有 收 入 非 常 稳 定 的 工 作 ,例
险 、操 作 风 险 、利 率 风 险 、汇 率 风 险 、 流 动 性 风 险 、监 管 风 险 、法 律 风 险 等 类
于 信 息 不 对 称 所 产 生 的 “ 向选 择 ” 问 逆
题 ,是 一 种 事 前 行 为 。 由于 小 额 消 费 类
贷 款 金 额 不 高 ,根 据 监 管 部 门 的 要 求 , 在 发 放 贷 款 时 ,可 以 采 取 借 款 人 自主 支 付 的 方 式 。 这 就 造 成 了 当借 款 人 取 得 所
个 人 综 合 消 费 类 贷 款 风 险产 生 原 理 及 主要 风 险点
在个 人 消 费 贷款 的 市场 上 ,贷款
目前 我 国 商 业 银 行 对 个 人 综 合 消 费 类贷 款 的风 险防控 措 施
由于 小 额 消 费 贷 款 的金 额 一 般 在 3 0 万 以 内 ,根 据 中华 人 民 共 和 国 银 行 业 监
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
67基于Logistic回归和结算数据的信贷早期预警模型研究庄道通( 中国建设银行上海数据分析中心,上海 200120 )【摘 要】本文基于借款人的结算交易数据,选取C银行制造业借款人为研究样本,分别使用变量聚类、交互式分箱、主成分分析对30个初始研究变量进行处理,运用Logistic回归构建模型,对比分析不同处理方法后Logistic回归结果,最终选择交互式分箱后Logistic回归模型作为信贷早期预警模型,同时使用了验证样本对模型进行了验证,基本实现了预警20%借款人覆盖80%实际违约客户的目标。
【关键词】信贷早期预警;交互式分箱;Logistic回归一、引言信用风险又称违约风险,是指交易对手未能按照契约中的约定履行义务而造成经济损失的风险,即受信人不能正常履行还本付息的责任而使得授信人的预期收益与实际收益发生偏离的可能性,因此信用风险本质的特征是借款人违约不能偿还到期债务的风险。
国家统计局统计数据显示,从2010年开始,我国经济GDP增速开始下滑,2010年-2015年我国GDP增速分别为10.3%、9.2%、7.8%、7.7%、7.4%、6.9%,经济发展面临较大的下行压力,企业违约风险不断加大。
根据中国银行业监督管理委员会年报显示, 2012年-2015年商业银行的不良贷款余额分别为4929亿元、5921亿元、8426亿元、12744亿元,不良贷款率分别为0.95%、1.00%、1.25%、1.67%,不良贷款余额和不良贷款率呈现“双升”趋势,2015年末整个商业银行的拨备覆盖率为181.18%,部分商业银行已接近“150%的监管红线”,商业银行的资产质量面临较为严峻的形势。
自从1994年我国《商业银行法》颁布实施以来,经过多年的发展,我国商业银行已经建立了一套较为完善的信用风险评价体系,使用较为成熟的信用风险度量方法,用于评价借款人的信用状况。
在企业借款人初始信用风险度量上,我国商业银行多通过使用定性评价指标结合定量财务指标,构建信用风险评价模型,得出借款人的违约概率。
这一评价方法虽然有效的评价了借款人的信用风险状况,但是也存在一些缺陷:一是借款人的财务数据获取较晚,很多情况下风险已经发生,存在一定的滞后性;二是现实中我国企业的财务数据真实性有待考究,尤其是中小企业;三是定性判断时人为干预因素较大,可能存在一定的非公允性。
本文旨在研究贷款发放后,通过分析借款人在银行的结算交易流水信息,利用Logistic回归的方法,构建信贷早期预警模型,提前预判借款人违约的可能性,对违约可能性较高借款人的客户经理发出预警信号,提醒客户经理重点关注,以便采取有效措施保全银行信贷资产。
二、Logistic回归模型Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系一种常用的多变量分析方法。
在计量借款人的违约风险时,借款人违约变量y是一个二分类变量,即y只有两个取值,分别为0和1,我们可将y=0视为借款人未违约,y=1视为借款人违约。
假设有多个自变量影响因变量y的取值,分别为x 1,x 2,…,x n ,条件概率p(y=1|x i )为观测值y相对于某事件x发生的概率,那么Logistic回归模型可以表示为:其中:这里:xe xf −+=11)(为Logistic函数,那么在x条件下y不发生的概率为:)()(11111)|1(1)|0(x g x g e e x y p x y p +=+−==−==−因此事件发生与不发生的概率之比为:)()()(111)|0()|1(x g x g x g e e e p p x y p x y p =++=−===−上式即为Logistic线性回归模型,如果g(X)为非线性函数,则相应的模型为非线性Logistic回归模型。
三、实证研究结合理论和实践,我们对本次信贷早期预警模型的构建提出了几点要求:一是预警率要低,不能出现大范围预警;二是预警的覆盖率要高,预警名单中最终违约借款人占全部违约借款人的比例要高,即能够预警出大部分违约客户;三是预警的准确性要高,预警的借款人中确实出现违约;四是模型变量尽可能少,解释性高。
一般来说,我们希望能够在预警率20%的水平上覆盖80%的实际违约客户,即常说的“二八原则”。
本文选取C银行制造业借款人为研究样本,运用Logistic回归模型建立信贷早期预警模型。
(一)研究样本和指标选取本文以2016年3月末为观察时点,选取2016年3月末五级为正常和关注的制造业借款人为研究样本,观察期为观察时点前6个月(即2015年10月1日-2016年3月31日),表现期为观察时点后6个月(即2016年4月1日-2016年9月30日),表现期末借款人五级分类变为次级、可疑、损失则视为借款人违约,否则视为借款人未违约。
最终本文选择了51216个样本,其中1544个违约样本,49672个非违约样本。
本文研究的是建立信贷早期预警模型,在指标选取上,以借款人在银行的结算交易流水信息为主要数据来源,包括借款人的借贷方发生笔数和金额、AUM值等。
从业务经验出发,选择了30个指标作为初始研究变量,具体变量指标名称和代码见表1。
表1 初始研究变量指标类型指标名称指标代码借方发生笔数最近1个月累计借方交易笔数X 1最近2个月累计借方交易笔数X 2最近3个月累计借方交易笔数X 3最近4个月累计借方交易笔数X 4最近5个月累计借方交易笔数X 5最近6个月累计借方交易笔数X 6贷方发生笔数最近1个月累计贷方交易笔数X 7最近2个月累计贷方交易笔数X 8最近3个月累计贷方交易笔数X 9最近4个月累计贷方交易笔数X 10最近5个月累计贷方交易笔数X 11最近6个月累计贷方交易笔数X 12AUM值与信贷余额之比最近1个月日均AUM/日均信贷余额X 13最近2个月日均AUM/日均信贷余额X 14最近3个月日均AUM/日均信贷余额X 15最近4个月日均AUM/日均信贷余额X 16最近5个月日均AUM/日均信贷余额X 17最近6个月日均AUM/日均信贷余额X 18借方发生金额与信贷余额之比最近1个月借方累计发生额/日均信贷余额X 19最近2个月借方累计发生额/日均信贷余额X 20最近3个月借方累计发生额/日均信贷余额X 21最近4个月借方累计发生额/日均信贷余额X 22最近5个月借方累计发生额/日均信贷余额X 23最近6个月借方累计发生额/日均信贷余额X 24贷方发生金额与信贷余额之比最近1个月贷方累计发生额/日均信贷余额X 25最近2个月贷方累计发生额/日均信贷余额X 26最近3个月贷方累计发生额/日均信贷余额X 27最近4个月贷方累计发生额/日均信贷余额X 28最近5个月贷方累计发生额/日均信贷余额X 29最近6个月贷方累计发生额/日均信贷余额X 30(二)数据清洗和处理通过对研究样本的数据统计和探索,发现所有研究样本的初始研究变量均无缺失值,数据质量高。
本文对所有研究样本采用分层抽样的方式进行了数据分区,按照7:3的比例将所有研究样本分为训练样本68和验证样本,训练样本用于建立模型,验证样本用于评价模型的预测精准度,同时防止模型过拟合,数据分区后样本情况见表2。
表2 数据分区后的研究样本样本类型违约样本个数非违约样本个数违约样本占比训练108034769 3.01%验证46414903 3.01%合计1544496723.01%常用的变量处理方法有变量聚类、交互式分箱、主成分分析,本文拟采用三种变量处理方法分别对表1中的初始研究变量进行处理,然后用处理后的变量进行Logistic回归建模,最后对比分析选择最优的模型作为信贷早期预警模型。
1.变量聚类。
变量聚类与聚类分析原理相似,是根据变量之间的相关系数,将相关性高的变量聚集在一组,保证各组之间相关性最低,同组内相关性最大,从每组中选择出典型变量,其目的是通过剔除冗余变量以消减变量之间的多重共线性。
本文通过SAS软件进行变量聚类,从30个初始研究变量中选择出5个典型变量作为Logistic回归的变量,分别为X 4、X 10、X 17、X 25、X 28,能解释的总偏差为28.63,占总偏差的比例为95.44%。
2.交互式分箱。
分箱是将自变量的观测值分成若干段(箱子),统计分析各个分段的违约样本和非违约样本个数和占比,通过计算IV、GINI等统计量,判断自变量的变化对目标变量的影响能力。
分箱将连续变量离散化,可以平滑目标变量与自变量之间的相关性,捕捉非线性关系,从而提高后续回归模型的预测能力。
本文使用GINI统计量判断自变量对目标变量的显著性,选择出GINI统计量大于20的初始研究变量作为Logistic回归的变量,使用SAS软件选择等频分箱对所有变量均分成4箱,经计算初始研究变量X 1-X 30的GINI统计量均大于20,因此将所有初始研究变量作为Logistic回归的变量,同时利用分箱的结果将所有的原始连续观测值离散化,变成平滑数据值。
3.主成分分析。
主成分分析是构建变量之间的线性组合,选择出较少个数的重要变量,同时尽量能解释数据的变异性。
本文通过SAS软件对初始研究变量进行主成分分析,构造出7个主成分,能解释的偏差占总偏差的比例为99.12%,7个主成分分别为:(三)Logistic回归建模本文利用处理后的变量进行Logistic回归建模,变量筛选的显著性水平设定为5%,选择逐步回归分析法,模型选择方法为AIC信息准则①,构建模型的过程如下:1.变量聚类。
X 4、X 10、X 17、X 25、X 285个变量作为回归变量,利用SAS软件进行Logistic回归,最终变量X 4进入Logistic回归模型,整个模型通过了似然比检验,参数估计见表3。
表3 变量聚类后逻辑回归结果Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSqExp(Est)Intercept 1-2.19740.04045204.11<.00010.054X 41-0.003910.000276201.17<.00010.996表4 GRP X i 与K ij 的对应关系GRPX i K i1K i2K i31100201030014-1-1-1表5 交互式分箱后逻辑回归结果表6 主成分分析后逻辑回归结果Parameter DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Exp(Est)Intercept 1-18.97360.8406509.46<.00010F 11-173.69.1752358.12<.00010F 21 1.5150.0813347.63<.0001 4.5492.交互式分箱通过将初始研究变量分成4箱,我们就将变量X 1-X 30变为序数型变量GRPX 1-GRPX 30,把序数变量GRPX 1-GRPX 30作为回归变量,同样利用SAS 软件进行Logistic回归,最终序数变量GRPX 1、 GRPX 2、GRPX 6、GRPX 7、GRPX 11、GRPX 12、GRPX 13、GRPX 14、GRPX 16、GRPX 17、GRPX 19、GRPX 21、GRPX 25、GRPX 30共14个变量进入Logistic回归模型,整个模型通过了似然比检验。