因子分析+logistic回归度量信用风险违约概率
logit违约率模型
logit违约率模型引言:在金融领域,违约率是一个非常重要的指标,它衡量了借款人无法按时偿还债务的概率。
为了准确预测违约率并进行风险管理,学者们提出了各种模型。
本文将重点介绍logit违约率模型,该模型是一种常用的统计方法,用于预测二分类变量(违约与非违约)的概率。
一、logit违约率模型的基本原理logit模型是一种基于逻辑回归的模型,它将线性回归模型的结果通过一个logit函数进行转换,使得模型的输出范围在0到1之间,表示违约的概率。
logit函数的表达式为:logit(p) = ln(p / (1-p))其中,p表示违约的概率。
通过logit函数的转换,我们可以将线性回归模型的输出转化为违约的概率,进而进行风险管理和决策制定。
二、logit违约率模型的建模过程1. 数据准备建模前首先需要准备数据集,包括违约与非违约的样本数据,以及一些可能影响违约的特征变量,例如个人信用评分、收入水平、负债情况等。
2. 模型建立logit模型的建立包括两个步骤:模型拟合和模型评估。
(1)模型拟合:通过最大似然估计等方法,拟合出logit模型的参数估计值,得到违约的概率预测模型。
(2)模型评估:使用一些评估指标,例如准确率、召回率、F1值等,对模型进行评估,判断模型的预测能力和准确性。
3. 模型应用通过得到的logit模型,可以进行违约率的预测和风险管理。
(1)违约率预测:根据已有的特征变量值,利用logit模型进行预测,得到违约的概率。
(2)风险管理:根据违约的概率,可以制定相应的风险管理策略,例如批准或拒绝借款申请,调整利率或贷款额度等。
三、logit违约率模型的优缺点1. 优点(1)模型简单:logit模型是一种简单而有效的预测违约率的方法,不需要过多的数据前处理和复杂的模型构建。
(2)解释性强:logit模型的参数具有一定的解释性,可以分析各个特征变量对违约率的影响程度。
(3)适用性广泛:logit模型适用于各种类型的数据,包括个人信用、企业违约等领域。
信用评估中的违约概率计算方法
信用评估中的违约概率计算方法信用评估是金融业中一项关键的风险管理技术,旨在对借款人的还款能力进行评估和预测。
其中一个重要的指标就是违约概率,用于衡量借款人在未来一段时间内违约的可能性。
本文将介绍信用评估中常用的违约概率计算方法。
一、传统方法传统的违约概率计算方法主要基于统计学和经验分析。
以下列举两种常用的方法:1.1 逻辑回归模型逻辑回归是一种常用的统计学模型,通过对借款人的历史数据进行分析,建立一个逻辑回归方程来预测违约概率。
这种方法主要依赖于大量的数据样本,在建模过程中需要考虑到借款人的个人信息、财务状况等因素。
1.2 评级系统评级系统采用一种基于历史数据和经验分析的方法,将借款人划分为不同的风险等级。
每个等级对应一种违约概率,从而实现违约概率的计算。
评级系统的优势在于简单易用,但对历史数据的要求较高,同时也无法考虑到个体差异。
二、机器学习方法随着大数据和人工智能技术的发展,机器学习已经成为信用评估中违约概率计算的新趋势。
以下列举两种常用的机器学习方法:2.1 支持向量机支持向量机是一种常用的机器学习算法,通过将数据映射到高维空间,寻找一个最优的超平面来进行分类。
在信用评估中,可以将违约概率的计算问题转化为一个二分类问题,从而利用支持向量机来进行预测。
2.2 随机森林随机森林是一种集成学习算法,结合了多个决策树模型来进行分类。
通过对大量的历史数据进行训练,随机森林可以生成一个强大的分类器,从而预测借款人的违约概率。
三、混合方法为了提高违约概率的准确性和可靠性,研究人员也尝试结合传统方法和机器学习方法,提出了一些混合的计算方法。
这些方法主要通过将传统方法和机器学习方法的结果进行加权平均或者进行逻辑连接,得到一个更有效的违约概率计算结果。
结论在信用评估中,违约概率的计算是至关重要的。
传统方法主要基于统计学和经验分析,而机器学习方法则通过利用大数据和人工智能技术来提高准确性和可靠性。
混合方法则试图结合不同方法的优势,从而得到更精确的违约概率预测结果。
判别企业违约的财务指标研究——基于行业差异的分析
判别企业违约的财务指标研究——基于行业差异的分析在当今社会的企业中,举债成为企业正常生产运营的重要内容,全球中的主权借款者也在急剧增长。
信用风险成为企业所有者和经理人、投资者、商业银行等金融结构和政府面临的最重要的金融风险。
因此,信用风险的度量成为这些机构面临的核心课题,其中违约概率是度量的关键和出发点。
一、行业差异的提出许多研究都表明:财务数据在很大意义上可以判别企业的违约问题。
单纯利用财务数据判别企业是否违约固然有一定的效力,但是由于许多影响企业违约的因素来自外在环境,包括所处生命周期、竞争状况、宏观政策等等,由单纯财务变量所建立的模型,在短期的预测有效,长期效果则较差。
行业变量与总体经济变量具有显著的预测效果,可以提高预测正确率。
距离违约时间点越近,总体经济变量的效果越大;不同行业之间财务比率的差异较大,考虑行业因素所建立的判别模型具有更好的判别效果。
二、基于行业差异分析的思路不同行业之间企业的财务风险特征是不同的,虽然使用行业平均值可以在一定程度上消除行业内企业的相对地位,但却无法处理不同行业之间风险特征不同的干扰;采用所有行业样本所建立的判别模型,不可能适用于每一个行业。
因此,本文认为,不同行业间分别采用样本来建立判别模型,可能可以比较好地处理行业变量的干扰。
而且,因为各个行业的风险特征不同,不同行业之间显著影响企业违约的变量也可能有所不同,利用最能影响单一行业的显著变量建立判别模型,可能会得到比较满意的结果。
三、实证分析与检验本文选取深沪两市上2006年制造业、信息技术业、批发和零售贸易、房地产业四个行业中所有ST股公司和蓝筹股公司为学习样本来建立模型,即77家ST股公司作为违约公司和172家蓝筹股公司作为正常公司,样本在各行业中的分布如表1所示。
对于财务指标的选择,本文从反映企业的偿债能力、资金周转能力和获利能力三个方面选出32个指标,按照“严格管制下线性Logit评分模型中信用因子的最优选择”的思路筛选出27个经济含义较大的指标,并通过因子分析进入分别反映企业的资产、负债、所有者权益、流动性、盈利性、周转性、生产销售能力、偿债能力和企业财务的总体状况的9个因子:流动性因子、负债比重因子、周转能力因子、盈利能力因子、资产规模因子、偿债能力因子、总体财务状况因子、销售变现因子、净资产增长因子。
基于Logistic回归分析的上市公司信贷违约概率预测模型研究
(一 ) 基于 L og istic 回归分 析的上 市公司信 贷违 约概率 预测模型
1. 选择适合的自变量和因变量 进入回归分析的样本有 182家, 占 所有样 本总数 的 99. 5% , 缺失样本 1家。这里 的 182家样本为 训练样本, 或者说 为建立 L og istic回归模型而选取的建立模型的样本。在模型 建立后, 新的模型会对这 样本公司重新判断其类别。因变量 为 0代表样本进入 正常 组, 1 代表 样本 进入 违约 组, L og istic 回归过程默认以因变量较大取值的概率 p( Y = 1)建立模型。
摘 要: 本文利用 Log istic回归分析建立了上市公司信贷违 约概率 预测模 型, 通过选取 样本数 据、测试数 据、年 度配比 数据和
反映公司的偿债、举债经营和运作资金的能力的 15个上市公司财务指标, 首先使用样本数据和测试数据对模型进行了分析和
检验, 其次分别通过改变数据的配比方式、年度数据来观察模型预测分类结果, 检验模 型的历史预 测能力, 最后根据 全文分析
! 145!
在进行 Log istic回归分析前, 在 182个初始训练样本中, 有 61 个样本进入违约组, 有 121个 样本 进入正 常组, 本 模型设 置
一、上市公司信贷违约模型的数据选取和指标确定
( 一 )数据选取与分析 本文应用到三组 数据, 样本数据、测试数据、年度配 比数
! 144!
据。样本数据是建立上市 公司信 贷违约 概率预 测模 型所需 数据; 测试数据是用于检验上市公 司信贷违约概率预测模型 的准确性和适用性所需数据; 年度 配比数据是对模型进行实 验性分析所需数据。
Logistic回归模型在信用风险分析中的运用
Logistic回归模型在信用风险分析中的运用信用风险分析是金融领域的重要主题之一,金融机构需要通过评估个体或组织的信用状况来决定是否给予贷款或信用额度。
为了实现准确的信用评估,Logistic回归模型成为了一种常用的方法。
Logistic回归模型基于Logistic函数,可以将线性回归模型的输出转换为概率值。
在信用风险分析中,Logistic回归模型可用于分类借款人的违约风险。
具体而言,模型可以根据借款人的历史数据、财务指标、信用记录等特征,预测借款人是否会违约。
这种能够将输出转换为概率的特性使得Logistic回归模型在信用风险分析中非常有用。
在应用Logistic回归模型进行信用风险分析时,需要先收集借款人的相关数据,并将其转化为可以用于模型的特征。
这些特征可以包括性别、年龄、收入水平、历史贷款记录、信用评分等。
接下来,将这些特征输入到Logistic回归模型中进行训练。
模型的训练过程通常使用最大似然估计法,通过最小化训练数据上的对数似然损失函数来估计模型的参数。
完成模型训练后,可以使用该模型对新的借款人进行违约预测。
模型会将输入特征值通过线性回归计算得到一个数值,然后应用Logistic函数将其转换为一个概率值。
如果概率超过一定阈值,可以判定借款人为高违约风险,从而减少对其贷款或降低信用额度。
需要注意的是,在应用Logistic回归模型进行信用风险分析时,一定要选择恰当的特征并进行特征工程,以确保模型的准确性。
同时,模型的性能评估也是关键的一步,可以使用混淆矩阵、准确率、精确率、召回率等指标来评估模型的预测效果。
通过迭代和优化模型,可以逐渐提升模型的性能。
总而言之,Logistic回归模型在信用风险分析中的运用具有重要的意义。
它能够将线性回归模型的输出转换为概率值,从而帮助金融机构准确地评估借款人违约风险,并做出相应的决策。
然而,模型的准确性和性能评估是使用Logistic回归模型进行信用风险分析的关键步骤,需要慎重进行。
基于Logistic回归分析的违约概率预测研究
基于Logistic回归分析的违约概率预测研究
于立勇;詹捷辉
【期刊名称】《财经研究》
【年(卷),期】2004(030)009
【摘要】内部评级法是巴塞尔新资本协议的核心内容之一,而计算客户违约概率(PD)是实施内部评级法的关键步骤.文章在结合我国国有商业银行实际数据的基础上,利用正向逐步选择法(forward stepwise)构建了较为科学的信用风险评估指标体系,通过Logistic回归模型构建了违约概率的测算模型.实证结果表明,模型可以作为较为理想的预测工具.
【总页数】9页(P15-23)
【作者】于立勇;詹捷辉
【作者单位】北京大学,光华管理学院,北京,100871;哈尔滨工业大学,金融研究所,黑龙江,哈尔滨,157001
【正文语种】中文
【中图分类】F830.5
【相关文献】
1.商业银行内部评级法的违约概率预测新方法——基于二值响应面板数据模型的研究 [J], 郑大川;王恒;黄震
2.基于KMV模型的科技型中小企业违约概率预测研究 [J], 陈倩;张目
3.Logistic回归分析在违约概率预测中的应用 [J], 兰云鹏;周生彬;王玉文
4.基于Logit回归的公司违约概率预测 [J], 付世豪
5.基于Logistic回归分析的上市公司信贷违约概率预测模型研究 [J], 杨蓬勃;张成虎;张湘
因版权原因,仅展示原文概要,查看原文内容请购买。
基于因子分析和Logistic分析的个人信用评估方法研究
基于因子分析和Logistic分析的个人信用评估方法研究作者:李杰方卫东来源:《时代金融》2017年第12期【摘要】随着大数据概念的提出,企业和个人越来越重视数据中隐藏的潜在价值。
为准确评价P2P网络贷款平台借款人的信誉度,本文利用因子分析方法从22个自变量中浓缩出8个“共同因子”,建立信用评价指标体系,并利用Logistic模型对借款人行为进行预测。
这种个人信用评价指标体系的筛选保留了大量的信息量,并利用Logistic模型给出了用户违约概率。
【关键词】P2P网贷因子分析评估指标体系 Logistic分析一、引言从硅谷到北京,大数据的话题正在被传播。
如今,一个大规模生产、分享和应用数据的时代正在开启[1]。
众多企业正面临着海量的管理数据,越来越关注如何从海量的数据中挖掘提炼出对企业有效的决策支持信息,提高企业的生存能力和企业的发展速度。
某种程度上,数据就是企业最珍贵的财富。
而数据财富的转化需要一种能够将大量数据智能化地转化为有价值的信息的技术,以达到为人们提供决策服务的目的。
随着计算机技术和统计分析方法的发展,量化分析已经成为各个学科领域中广泛应用的技术方法。
根据国际权威高德纳咨询公司的调查分析报告显示,数据挖掘技术将是今后几年全世界范围内重点加大投资研究的十大新兴高科技技术之一,它已经引起了学术界和工商界的重点关注,是当今数据库系统开发、研究和应用领域的一个热点技术[2]。
自2007年国外网络贷款平台模式引入中国以来,国内P2P网络借贷平台如雨后春笋般蓬勃发展。
这一模式为很多无法从银行或其他信贷机构获取贷款的支持的个人消费者、微企业主提供了一种新的融资渠道。
然而,P2P网贷面临诸多风险:个人信用风险,平台账户资金使用不当引发经营风险,法律风险等。
目前我国的公民信用体系还不健全,平台与平台之间又缺乏联系和沟通,各个平台频频出现坏账,借款人不能及时还款,造成了借款人集中违约,借款人信用风险无疑是平台面临的最大风险。
基于Logistic模型的校园贷违约风险因素分析
基于Logistic模型的校园贷违约风险因素分析作者:黄丽仇乐宁徐琬莹门明坤来源:《现代经济信息》2016年第08期摘要:违约风险是潜藏在校园贷发展过程中的重要风险,也是校园贷平台可持续发展的主要障碍。
学生违约的根本原因还是由于其没有稳定的收入来源,无法保证还款的及时性,同时其他潜在因素也影响着学生的违约行为,例如学生的年级、贷款金额和贷款期限等。
本文基于对大学生使用校园贷情况的问卷调查,统计整理调查数据,通过建立logistic模型来探究影响大学生违约的相关因素,从大学生角度分析其违约行为,并在最后给出相关建议。
关键词:校园贷款;违约风险;logistic模型中图分类号:F832.4;F224;F724.6 文献识别码:A 文章编号:1001-828X(2016)08-000-03继信用卡被银监会叫停,退出大学生市场后,随着互联网金融发展的不断延伸以及大学生日益增长的消费需求,校园贷转手接力信用卡,迅速进驻高校。
除国家助学贷款和生源地贷款外,现今的校园网络贷款已在高校占据很大的市场额,而校园贷的模式也多种多样,主要分为P2P网贷、分期消费平台和电商平台开展的信贷服务,而当前这些平台的发展模式尚不完善,平台的风控系统还存在诸多漏洞,且大学生的信用意识又较为薄弱,因此在校园贷发展过程中,违约风险无疑是制约平台发展的重要因素,也是学生贷款时所面临的重要问题。
一、文献综述针对学生贷款中越来越高的违约率,许多学者致力于研究学生的违约行为,希望探究出其影响因素以降低贷款过程中的信用风险。
廖茂忠,沈红[1](2008)结合大量经验数据,发现学生贷款违约主要受七大因素影响,即学生的学业状况,毕业后的收入水平与就业状况,债务水平,就读院校特征,家庭特征,个人特征及学生贷款制度。
沈华[2](2010)通过实证分析研究了四种主要贷款模式下学生的偿还影响因素,并针对相应的研究结果提出贷款发放和偿还的政策性意见。
廖茂忠、沈红[3](2010)调研了贷款参与方的信息,论证了大学毕业生的收入状况、还款意愿和社会信用环境是影响贷款违约的重要因素,而收入状况则是最核心的因素。
商业银行公司授信违约概率预测方法
商业银行公司授信违约概率预测方法商业银行作为金融机构,通过为客户提供授信业务来发挥其信贷功能。
然而,授信业务存在一定的风险,客户可能因各种原因违约。
因此,商业银行需要进行授信违约概率预测,以评估客户的还款能力,有效控制风险。
本文将介绍几种常见的商业银行公司授信违约概率预测方法。
首先是基于传统的统计方法,如Logistic回归模型。
这种方法通过对历史数据进行分析,建立一个数学模型,以预测客户违约概率。
在数据预处理阶段,可以对数据进行清洗、缺失值填充和特征选择等操作,以提高模型的准确性。
然后,使用Logistic回归模型对特征和违约概率之间的关系进行建模,并通过模型的参数估计来计算违约概率。
最后,将模型用于新数据的预测。
其次是基于机器学习的方法,如支持向量机(SVM)和随机森林(Random Forest)。
这些方法不仅可以处理线性关系,还可以处理非线性关系,从而提高模型的预测能力。
与传统方法不同,机器学习方法可以自动地从数据中学习特征和违约概率之间的复杂关系。
使用这些方法预测授信违约概率时,需要进行数据预处理、特征工程和模型训练等步骤。
最后,可以使用验证集或交叉验证方法评估模型的性能,并选择最佳模型进行预测。
此外,还可以利用深度学习方法进行授信违约概率预测。
深度学习是一种模仿人脑神经网络结构的机器学习模型,在处理大规模数据和复杂关系方面具有优势。
例如,可以使用多层神经网络对客户的特征进行学习,以预测其违约概率。
这种方法需要大量的数据和计算资源,但可以获得更准确的预测结果。
除了以上的方法,还可以使用集成学习方法进行授信违约概率预测。
集成学习是一种将多个模型的预测结果进行组合的方法,以提高模型的预测性能。
例如,可以使用Boosting或Bagging方法对不同的机器学习模型进行集成,以预测客户的违约概率。
集成学习方法通常能够提高模型的稳定性和泛化能力。
总结来说,商业银行公司授信违约概率预测方法可以采用传统的统计方法、机器学习方法、深度学习方法和集成学习方法等。
基于Logistic模型的中小企业信用风险的度量分析
基于Logistic模型的中小企业信用风险的度量分析摘要:本文以反映中小企业偿还负债能力和盈利能力两个方面的财务指标,构建logistic模型,对中小企业的信用风险进行测算。
研究结果表明:中小企业的保守速动比率和净资产收益率对企业的违约概率有重要的影响,所以中小企业的短期偿债能力和盈利能力对企业的违约概率有着很强的解释能力。
关键词:信用风险logistic模型;偿债能力;盈利能力在影响企业的信用风险的众多财务指标中,本文认为最重要的因素是偿债能力和盈利能力。
因此,选择的变量有衡量企业短期负债偿还能力的保守速动比率(x1),衡量企业长期负债能力的有形资产净值债务率(x2)和利息保障倍数(x3),同时选择了综合反映企业盈利能力的净资产收益率(x4)。
各指标的计算公式如下:保守速动比率=(现金+交易性金融资产+应收账款+应收票据)/流动负债,有形资产净值债务率=负债总额/(股东权益-无形资产净值),利息保障倍数=息税前利润/利息费用,净资产收益率=净利润/净资产。
由于很难得到中小企业违约数据,所以参照经常性做法,将上市公司中被st(退市风险警示)的公司近似视为违约企业,没被特别处理的企业则视为经营状况良好,不存在违约风险的企业。
上市公司的财务比率数据来源于ressert数据库,共选取了90家上市公司,其中st的公司30家,非st的公司60家,以其数据来估计模型的参数。
然后随机抽取st公司和非st公司各10家,用其数据来进行预测,检验模型的预测效果。
在企业违约风险的度量中,存在违约(y=0)与不违约(y=1)两种情况。
因此,二元选择模型比较适用于企业违约风险的度量。
本文选用二元选择模型中logistic模型,来模拟与评估企业的违约风险。
模型的具体形式为:pi=11+exp(-x′iβ)其中:pi为事件yi发生的概率,x′i为影响事件发生的自变量的转置向量,β为各自变量的系数。
经过比较后发现,含变量净资产收益率(x4)模型的各项指标最优。
Logistic回归分析在违约概率预测中的应用
Logistic回归分析在违约概率预测中的应用兰云鹏;周生彬;王玉文【摘要】新巴塞尔协议中,计算违约概率是对信用风险衡量很关键的步骤.该文以我国村镇银行实际数据作为基础,通过逐步回归判别法构建了较为科学的信用风险评估指标体系,采用Logistic回归模型构建了违约概率的测算模型,说明了Logistic模型具有非常可信的识别,预测及推广能力,可以对农村金融中的信用风险有效评估.【期刊名称】《哈尔滨师范大学自然科学学报》【年(卷),期】2019(035)002【总页数】4页(P9-12)【关键词】违约概率;Logistic回归分析;信用风险【作者】兰云鹏;周生彬;王玉文【作者单位】哈尔滨师范大学;哈尔滨师范大学;哈尔滨师范大学【正文语种】中文【中图分类】O2110 引言中国农村金融存在诸多问题,信用风险问题是其中之一.可以通过测算违约概率来衡量信用风险.解决信用风险问题首先需要对农户建立风险评级体系,信用评级需要考虑的风险因素则是违约概率(PD).违约概率是指借款人未来一定时期内不能按合同要求偿还贷款本息或履行相关义务的可能性.巴塞尔委员会对客户的违约定义为:若出现以下一种情况或同时出现以下两种情况,债务人被视为违约.(1)银行认定,除非采取追索措施,借款人可能无法全额偿还对银行的债务;(2)债务人对于银行的实质性贷款债务逾期90 d以上.若客户违反了规定的透支限额或者新核定的限额小于目前的余额,各项透支将视为逾期.为了选取样本和建立判别模型,还必须制定一个切实可行的违约与非违约农户的界定标准.农户违约以违约,无偿付能力或破产为显著特征和具体表现形式.1 文献综述Ohlson和Zavgren首次采用逻辑回归分析构建了制造业企业的违约概率测算模型.Laitinen等将logitsic模型中的指数部分进行泰勒展开,进而利用基于泰勒展开式的逻辑回归模型测算企业的违约概率[1].于立勇和詹捷辉在商业银行实际数据基础上,利用正向逐步选择法构建了较为科学的信用风险评估体系,结合Logistic回归模型构建了违约概率的预测模型[2]. 曹勇和李孟刚等用Logistic模型计算公司违约概率在实际应用中存在两个问题,针对这两个问题对模型做了一定改进,对提高公司违约概率测算的准确性以及信用风险管理具有重要参考意义[3].根据以上相关研究,笔者认为也可以应用Logistic模型来预测农户是否违约的问题.因此,该文尝试用Logistic回归模型来研究违约概率,以期为定量衡量农村信用风险提供一种建模方法.2 Logistic模型假设有一个理论上存在的连续反应变量代表事件发生的可能性,其值域为负无穷到正无穷.当该变量值跨越一个临界点c(令c=0),便导致事件发生,于是有:当时,yi=1;其他,yi=0.这里,yi为实际观察到的反应变量.yi=1表示事件发生;yi=0表示事件未发生.如果假设和自变量xi之间存在一种线性关系,即:(1)则:P(yi=1|xi)=P[(α+βxi+εi)>0]=P[εi>(-α-βxi)](2)由于Logistic分布是对称的,因此:P(yi=1|xi)=P[εi≤(α+βxi)]=F(α+βxi)(3)其中,F为εi的累积分布函数,分布函数的形式依赖于εi的假设分布.(4)这一函数称为Logistic函数,无论εi取任何值,Logistic函数的取值范围均在0和1之间.为了构建Logistic回归分析的信用风险评估模型,首先需要重新定义εi,此时εi被定义为一系列影响违约概率因素的线性组合,即:(5)通过对公式(5)进行对数变换,可以得到如下形式的Logistic模型:(6)这里pi=P(yi=1|xi)Logistic回归模型中因变量是二分类的,而不是连续的,其误差的分布是二项分布,且所有的分析均建立在二项分布的基础上.基于上述原因,Logistic回归系数的估计不再用最小二乘法,而要用极大似然法[4-5].若y1,y2,…,yn为一组观测到的因变量样本,yi的分布函数为:(7)其中pi为事件发生的概率,由(6),(7)可构造似然函数:(8)对(8)两边取对数后变为:(9)利用极大值原理,根据式(9)分别对α和βk求偏导数,并令其等于零,可解得α和βk的值.利用R程序可以很容易求出估计值[6].3 信用风险评估指标的选取通过综合考虑信用风险的各影响因素,借鉴企业与商业银行资信评估指标体系以及国内外资料的相关指标,在分类,汇总,整理的基础上,同时兼顾数据的可获取性原则和可量化原则,依次选取农户家庭特征中的土地面积,家庭生产经营类型,家庭收入比重;农户个人特征中的性别,年龄,受教育程度,贷款金额,贷款期限等指标.这些指标可以较为全面的反映农户的盈利能力,偿债能力等信息.对这些指标进一步筛选.用逐步回归判别法(如图1所示)结合R程序.以某一地区农户贷款研究对象,分析了含有140个样本的农户贷款数据集,其中含有35个违约农户和105个正常农户.图1 逐步回归分析流程图经过上述分析和测算,最后筛选出了4个自变量,分别为:土地面积、家庭收入比重、贷款金额、贷款期限,可以较为科学的反映贷款农户的信用风险.4 违约概率的测算利用R软件测算得到Logistic回归分析方程为:Logit P=1.242-2.686x1+1.548x2+3.119x3-1.119x4自变量分别为: x1家庭收入,x2土地面积,x3贷款金额,x4贷款期限.通过Logit 变换,把测试数据带入方程,即可得出农户的违约概率(见表1).表1 预测结果YPredictFrequency01Total02973681%19%100%14101429%71%100%Total 3317505 违约概率的测算模型分析及建议该文说明了Logistic函数与模型作为预测贷款农户违约概率的理论基础,并给出了构建模型的统计方法,同时结合村镇银行实际数据运用Logistic回归模型对农户违约概率进行了实证分析.研究结果表明,Logistic模型是一种较为理想的农户违约概率预测工具.采用logit模型判定预测样本农户的信用风险状况,发现模型预测的准确率达到72.5%,模型对训练样本和预测样本的判定结果基本一致,模型比较稳定,推广能力较强.然而,模型的实证过程中也存在一定的不足.Logistic模型自身也存在一定不足,对线性可分的样本集不能采用极大似然估计,样本的数量不可太少,这些都是需要进一步研究和改进的地方.在我国村镇银行中,对于新的借款人的信用情况,由于缺少评估模型中需要的数据信息,只能更多依靠定性分析来判断.信贷工作人员在实际工作中积累了宝贵的经验.一般情况下,完整的信用评分表包括供求状况,行业竞争力,政策法规影响,债务承担能力,在银行信贷资产质量和以往信用情况等信息,涉及的很多资料是识别模型无法衡量的.根据农户基本情况设计和完善定性分析指标,将定性分析与信用风险logit评估模型的判定结果相结合,可以提高识别的准确性,降低银行信用风险,降低未来遭受损失的可能.参考文献【相关文献】[1] 段翀. 基于风险溢价的小企业贷款定价研究及应用[D]. 大连理工大学.[2] 于立勇,詹捷辉. 基于Logistic回归分析的违约概率预测研究[J]. 财经研究,2004(9):15-23.[3] 曹勇,李孟刚,李刚,等. 基于信用利差与Logistic回归的公司违约概率测算模型与实证研究[J]. 运筹与管理,2016(25):209-223.[4] 武次冰,易宇,武锶芪. 贷款违约概率测算方法:违约比例模型[J]. 统计与决策,2010(6):15-19.[5] 李萌. Loigt模型在商业银行信用风险评估中的应用研究[J]. 管理科学,2005(18):33-38.[6] 宋军,张宗新. 金融计量学[M]. 北京:北京大学出版社,2009.。
用Logistic模型估计企业的违约概率
一
、
西方 常见 的违 约概 率测算模型述评
针 对 违 约 概 率 , 目前 , 方较 常用 的测 算 违 约 西
用L gs c 型估计企业 的违约概 率 o i i模 t
甄 士 龙 黎 艳
( 西南 财经大学金融学 院,四川 成都 6 07 10 4) 摘 要 :本文采用 L g t  ̄归模 型对企 业的违约概率进行 分析 ,选取2 0 年 制造 业S 和非s 的上市公 司作 为初始样本 , oii sc 07 T T
使用 正向逐步选择法根 据样本企 ̄ 2 0 和2 0 年 的财 务数据的平均值来 预测2 0 年企业 的违 约状况 。结果显示 ,在影响企业 k 05 06 07 违约 概率 财务数据 中 ,最 重要 的是企业 的盈利 能力 ,其 次是偿债 能力 ,营运 能力 、成 长能力 和公 司规 模 的影 响程度相 对较
K 模 型 是 著 名 的风 险 管 理 公 司KMV公 司 开 MV 发 的一 个 信用 风 险计 量模 型 。它将 期权 定 价理 论 融 入 到信 用 风 险管 理 中 ,通过 分 析上 市公 司 股 价 的波 动 来判 断 企业 违 约 的可 能性 。该模 型认 为 当企业 资
产未来市场价值低于企业所需清偿 的负债面值 时, 企 业 将 会 违 约 。 它 分 三 个 步 骤 来 确 定 客 户 违 约 概 率。第一步 ,从公 司股票的市场价值 、股价波动性 及 负债 账面价值估计 出公 司的市 场价值及其 波动 性 。第二 步 ,根据公 司的负债计 算 出公 司的违 约
Logistic模型和KMV模型在中国上市公司信用风险度量中的比较研究
Logistic模型和KMV模型在中国上市公司信用风险度量中的比较研究论文导读::本文从违约概率衡量上市公司信用风险的角度和信用评级的角度来看,基于因子分析的Logistic回归模型和KMV模型都能反映上市公司的信用风险状况,但基于因子分析的Logistic回归模型的评级结果比KMV模型较准确。
论文关键词:信用风险,KMV模型,Logistic回归模型,因子分析,信用评级一、引言随着金融全球化趋势的加快和金融市场的波动性加剧,企业破产和重组事件的发生频率也越来越高,各国金融行业受到了前所未有的信用风险的挑战。
而上市公司是中国证券市场的基础,公司质量的高低、行为的规范与否及其财务状况的好坏将直接影响到中国证券市场的发展和投资者的利益,影响市场的兴衰。
二、数据来源本文选取上市公司中的绩差股与绩优股为研究样本,绩差股选取截止2005年12月31日沪深两市被ST的上市公司中的30家为样本和绩优股选取大盘蓝筹股中的30家上市公司作为配对样本,共60家上市公司,这60家上市公司全部为A股(研究的股票交易数据和年报财务数据以及相关的其他信息来自大智慧和中国金融wind数据库)。
三、模型的构建及结论分析针对Logistic回归模型和KMV模型存在的问题,在本文中也做了部分的改进,进而对中国上市公司进行信用风险度量,以期待能找到适合中国实际情况的信用风险度量模型。
3.1、Logistic回归模型对Logistic回归模型的构建,首先要慎重选择参数。
误选参数会导致模型的误判。
3.1.1 、Logistic回归模型的参数选择本文选择了能反映上市公司的赢利性,偿债能力,营运能力、现金流量等方面特性的21个财务指标。
我们利用SPSS13.0统计软件作为因子分析的工具金融论文,其具体步骤如下:(1)提取60家样本公司2005会计年度报告的指标数据,利用SPSS13.0现将21个指标进行无量纲标准化;(2)利用因子分析计算相关系数矩阵的KMO值及Barlett检验值,分析显示KMO值及Barlett检验值符合检验要求;(3)计算特征值、贡献率、共同度,提取特征值大于0.8的9个因子为主要因子,累计贡献率达到81.687%[2]。
基于Logistic回归分析的违约概率预测研究
基于Logistic回归分析的违约概率预测研究一、本文概述随着金融市场的不断发展和信贷规模的日益扩大,违约风险的预测和管理成为金融机构面临的重要挑战。
违约概率的准确预测不仅有助于降低信贷风险,还能为金融机构的决策提供科学依据。
因此,本文旨在探讨基于Logistic回归分析的违约概率预测方法,以期为金融机构的风险管理提供新的视角和工具。
本文将介绍Logistic回归的基本原理及其在违约概率预测中的应用。
Logistic回归是一种广义的线性模型,适用于因变量为二分类或多分类的情况。
通过构建Logistic回归模型,我们可以分析自变量与违约概率之间的非线性关系,从而更准确地预测违约事件的发生。
本文将详细阐述基于Logistic回归分析的违约概率预测模型的构建过程。
包括数据收集与预处理、变量选择与模型设定、参数估计与模型检验等步骤。
在数据收集与预处理阶段,我们将关注数据的来源、质量以及处理方法;在变量选择与模型设定阶段,我们将根据理论分析和实际情况选择合适的自变量,并构建Logistic回归模型;在参数估计与模型检验阶段,我们将采用适当的统计方法估计模型参数,并通过交叉验证、ROC曲线等方法评估模型的预测性能。
本文将通过实证研究验证基于Logistic回归分析的违约概率预测模型的有效性。
我们将选取某金融机构的信贷数据作为研究样本,运用构建的模型进行违约概率预测,并与实际违约情况进行对比。
通过实证分析,我们将评估模型的预测精度和稳定性,为金融机构的风险管理提供有益的参考。
本文旨在通过Logistic回归分析的方法研究违约概率预测问题,为金融机构的风险管理提供新的视角和工具。
通过理论分析和实证研究相结合的方法,我们将探讨如何构建有效的违约概率预测模型,为金融市场的稳健发展提供有力支持。
二、文献综述违约概率预测是金融风险管理领域的核心议题之一,对于银行、保险公司、投资公司等金融机构来说,准确预测违约概率是维护资产安全、降低风险损失的关键。
基于Logit回归的公司违约概率预测
基于 Logit回归的公司违约概率预测
付世豪
摘要:本文选取了上海证券交易所 2017年的 ST企业和 非 ST企业的 16个与公司经营状况相关的财务指标,进行多 元化处理后分别建立 Logit回归模型和多元回归模型对企业 违约概率进行推断。实证结果表明 Logit模型预测企业违约 概率具有较高的可靠性和稳定性,统计精度在 70%左右。
表 2 单变量 Logit回归结果
变量名称 流动比率 R1 速动比率 R2 营运资本比 R3
β0 03237 02395 02418
β1 预测精度 -01646 5855% -01542 5789%
-21198 6184%
分类 流动性 流动性 流动性
108
理论探讨
变量名称
β0
息税前利润 /总资产
盈利性
业务收入 R11
业务收入 /总资产
盈利性
运营利润率 R12
业务收入 /销售额
盈利性
应收账款周转率 R13
应收账款 /销售额
活动比率
存货周转率 R14
ቤተ መጻሕፍቲ ባይዱ
存货 /销售额
活动比率
总资产周转率 R15
销售额 /总资产
活动比率
总资产 R16
总资产对数
活动比率
(二)ST处理 本文 选 取 来 自 不 同 板 块 的 152家 中 国 代 表 性 企 业 的 2017年的财务数据作为研究对象,其中包括 76家违约企业 和 76家非违约企业。本文将 ST(特殊处理)视为企业的违 约样本,自 1998年 4月 22日起,根据深圳证券交易所和上 海证券交易所的规定,如果上市公司出现财务问题或其他异 常情况,使投资者无法判断公司的未来,可能危及投资者的 利益,证券交易所应对这些股票采取特殊待遇。这些股票将 标记为 ST。 三、回归结果与预测 (一)单变量分析 这部分的分析通过使用求解的参数计算不同公司的违 约几率,然后将其与确定的截止值 05进行比较,以确定其 是默认值还是非默认值,之后将比较分类结果与实际数据, 由此得到回归的效率。本文将分别对 16个变量中的每个变 量进行 Logit回归,回归结果见表 2。
基于logistic模型的违约概率测算研究的开题报告
基于logistic模型的违约概率测算研究的开题报告一、题目基于logistic模型的违约概率测算研究二、背景随着经济全球化的深入发展,金融风险问题成为了各国市场监管部门、学者及金融机构共同关注的问题,而违约风险是其中的重要一环。
了解借款人的违约风险,可以更好地控制风险,保障金融机构及投资人的利益。
在这一背景下,建立一种可以较为准确测算出借款人违约概率的模型,对金融机构和投资人有着重要的意义。
而logistic模型作为一种经典的违约概率测算方法,在金融风险领域中被广泛应用。
三、研究内容本研究将对logistic模型进行深入研究,探索其在测算借款人违约概率方面的应用。
具体来说,将从以下几个方面展开研究:1. 研究logistic模型的基本原理和应用场景,深入了解其核心思想和数学模型。
2. 收集借款人相关数据,确定影响借款人违约的因素,并通过数据预处理、特征工程等方法,将数据转化为模型可以接受的形式。
3. 建立logistic模型,对收集到的数据进行训练和验证,评估模型的准确性和可靠性。
4. 针对模型的不足和局限性进行分析,并提出改进和优化策略。
四、研究方法1. 文献综述法:对logistic模型及其在金融风险领域的应用进行深入了解,在此基础上设计研究方案。
2. 数据分析法:通过收集借款人相关数据,确定影响借款人违约的因素,并进行数据预处理、特征工程等操作,将数据转化为模型可以接受的形式。
3. 模型建立与验证法:基于logistic模型,对收集到的数据进行训练和验证,并评估模型的准确性和可靠性。
4. 分析与优化法:对logistic模型的不足和局限性进行分析,并提出改进和优化策略。
五、预期成果本研究将建立一种基于logistic模型的违约概率测算方法,并对该方法进行验证和优化。
预计的成果包括:1. 研究报告:对logistic模型在违约概率测算中的应用进行深入研究,对模型的优缺点、应用前景等进行分析,并提出相应的改进策略。
基于Logistic回归分析的违约概率预测研究
m
= α + βkxki
k=1
(8)
将 Logit P 看成因变量 ,Logistic 回归就与多元线性回归模型形式是一致
的 ,不同的是 : (1) Logistic 回归模型中因变量 y 是二分类的 ,而不是连续的 ,其
误差的分布不再是正态分布而是二项分布 ,且所有的分析均建立在二项分布
的基础上 。(2) 也正是基于上述原因 ,Logistic 回归系数的估计不再用最小二
关 ,而在多元分析时就成为重要的自变量 。所以选择一个足够大的水平 ,以保
证将有可能成为重要预测变量的候选者都纳入到多元分析中 。
由于变量 X7 的 Pr > ChiSqure 值为012139 ,与筛选标准 012 相差不大 ,同 时考虑到解释变量的充分性 ,也将其纳入到模型中 。
经过以上测算与分析 ,筛选出 6 个自变量 ,分别为 :经济性质 、速动比率 、
二 、Logistic 模型与信用风险评估
线性回归模型 (linear regression model) 在定量分析中是非常流行的统计 分析方法 ,但在考虑计算 PD 模型时 ,由于因变量是一个二分类变量 “( 正常” 或者“违约”,也可记为“0”与“1”) ,而不是一个连续变量 ,所以对于二分类因变 量的分析需要使用非线性函数 。 事件发生的条件概率 P(yi = 1| xi) 与 xi 之间的非线性关系通常是单调函数 , 即随着 xi 的增加单调增加或者减少。一个自然的选择便是值域在 (0 ,1) 之间有 着 S 形状的曲线 ,这样在 xi 趋近于负无穷时有 E(yi) 趋近于 0 ,在 xi 趋近于正无 穷时有 E(yi) 趋近于 1 。这种曲线类似于一个随机变量的累积分布曲线。在二 分类因变量分析中曾使用多种分布函数 ,最常用的函数是 logistic 分布。 假设有一个理论上存在的连续反应变量 yi3 代表事件发生的可能性 ,其 值域为负无穷至正无穷 。当该变量值跨越一个临界点 c (不妨令 c = 0) ,便导
信用分析师如何评估企业的违约概率和违约损失
信用分析师如何评估企业的违约概率和违约损失信用风险是企业面临的一项重要挑战。
信用分析师担负着评估企业违约概率和违约损失的重要任务,以帮助投资者和金融机构做出明智的决策。
本文将介绍信用分析师如何评估企业的违约概率和违约损失,以及相关的分析方法和指标。
一、违约概率评估评估企业的违约概率是信用分析师的首要任务之一。
违约概率是指企业在未来一段时间内出现违约行为的可能性。
以下是一些常用的评估方法和指标:1. 量化模型:信用分析师可以使用量化模型来评估企业的违约概率。
常用的模型包括Logistic回归模型、神经网络模型等。
这些模型通过统计分析企业的财务和非财务指标,建立模型来预测违约概率。
2. 财务分析:财务指标是评估违约概率的重要依据。
信用分析师可以通过分析企业的财务报表,关注企业的盈利能力、偿债能力、运营能力等指标,来评估违约概率。
3. 行业和宏观环境分析:行业和宏观环境因素也是评估违约概率的重要考虑因素。
信用分析师需要了解企业所处的行业特点和宏观经济环境,以评估企业违约的可能性。
二、违约损失评估评估企业的违约损失是信用分析师的另一个重要任务。
违约损失是指在企业违约时,投资者和金融机构可能遭受的经济损失。
以下是一些常用的评估方法和指标:1. 违约概率和违约损失的关系:信用分析师需要理解违约概率和违约损失之间的关系。
一般来说,违约概率越高,违约损失也越大。
根据企业的违约概率,信用分析师可以预测违约损失的规模。
2. 违约损失率:违约损失率是评估违约损失的重要指标。
信用分析师可以通过研究历史数据和市场情况,计算违约损失率,从而评估企业违约时可能遭受的损失。
3. 风险敞口:风险敞口是评估违约损失的另一个重要指标。
信用分析师需要评估投资者或金融机构对于企业违约时可能面临的风险敞口,包括资金占用、市场价格波动等因素,以评估违约损失的规模。
总结信用分析师评估企业的违约概率和违约损失是复杂而重要的工作。
他们需要运用量化模型、财务分析、行业和宏观环境分析等多种方法和指标来评估企业的违约概率和违约损失。
基于因子分析的Logistic违约概率模型
研究和讨论违约概率计量方法和计量模型具有重 商业银行客户违约概率顶测模型; 李萌 以不 良贷
收稿 日期 :20 0 9一l 4 2一l
基金 项 目 :山东 省软 科学研 究计 划 资助项 目 (0 8 K 22 20 R B 4 ) 作者 简介 :张 颖 (93 ) 16一 ,女 ,博 士研究 生 , 究方 向 :商 业银行 风 险管理 , hny g w 13 cm。 研 zagi m @ 6 .o n 引 文格式 :张颖 , 马玉林 . 于 因子分析 的 Lg t 违约 概率 模型 [ 】桂林 理工 大学学 报 ,00 3 ( )14 7 基 oii sc J. 2 1 , 1 :7 —18 0
法 。从发 达 国家 国际 性 大 银 行 的 经 验 看 ,内 部 评 因变 量 的取 值 仍 在 0—1 。解 决 该 问题 的 办 法 可通
oi t 级对于信用风险管理 的作用是 巨大 的。内部评 级 过对因变量作 Lg 转换 ,使其取值范围在 一∞ 一 oii sc回归 方 法研 究 企 业违 法衡量的关键在于对违约率及其相关因素 的测算 , +∞ ,这样 就 可 以用 Lg t 违约率是衡量不同评级体系优劣 的客观标准 ,因 约状况 与财 务 之 间 的关 系 。而 且 Lgt o sc模 型不 要 i
因素都要求商业 银行有更好 的方 法来衡 量和管理 的多元模型影响最为广泛。但在度量企业 信用风 风险。国际银行业监管 的统一标准—— 《 巴塞尔 险时 ,企业是否 违约是一个两 分类变量 ,作 为两 1 新资本协议》 对于信用风险的计 量 ,倡导国际活 分类因变量 的信用状况的概率取值在 0— ,但在 跃银 行实 行基 于 内部 数 据 和管 理 标 准 的 内部 评 级 线 性模 型条 件下 ,不 能 保证 自变 量 在各 种组 合 下 ,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于因子分析的logistic违约概率模型的实证研究作者:葛钊本文针对一般商业银行等单位采用Logistic回归估计PD的模型中多重共线性、没有考虑时间因素等问题,构建和验证了基于因子分析的logistic违约概率测算模型的效果和可行性,并对财务指标进行了时间加权化处理的模型改进工作,在最后对模型的进一步优化提出了新的思考和方向。
本文样本数据获取渠道为中国证券市场公开信息,选取6家在2005-2006年和2010年发生过银行贷款违约的制造业上市公司(违约笔数8笔),和31家同行业同期贷款未发生违约且非ST类的上市公司,并且总资产与销售规模与违约公司相似(考虑到建模样本数量过少,加入此约定为提高模型精度),组成39个建模数据,进行模型构造。
其中,财务数据均取自违约/非违约公司对应违约年份前一年末或前二年末的数据,此是模型具有预测功能的必要条件。
6家违约上市公司8条违约记录(其中3条违约记录来自同一公司)如下:6家上市公司发生逾期的贷款类型均为短期流贷,全部归属于公司风险暴露中一般公司风险暴露。
另外,之所以将上海宽频科技股份有限公司的三次逾期数据全部纳入建模,是由于一方面可供建模的违约数据过少,将其加入不影响模型的建立和使用,另一方面数据量的增加增强了模型的预测能力。
31家非违约上市公司信息如下(合并报表数据):*其中四川大通燃气开发股份有限公司在2006年由医药、生物制品类转为批发和零售贸易类;浙江钱江生物化学股份有限公司在2006年由医药、生物制品转为石油、化学、塑胶、塑料类。
特此说明。
以下对从网络公开信息获取的数据,进行数据手机、业务定义、数据清洗、模型分组、模型分析、变量构造、变量分析和变量选择等步骤。
选取如下14个财务指标,作为建模数据估计模型参数。
选取数据的原则主要是从数据的易获得性、完整性考虑的,同时为了免去单因素初步筛选等较为简单的过程,直接按现有资料综合选取了显著性较高的财务指标。
所选指标全部是以百分比度量的财务比率,这样的好处是将企业规模等因素在模型系统中的影响最小化,提高模型的预测精度。
提取指标列表:对于违约上市公司,做因子分析和Logistic回归时采用违约当年和前一年经时间加权计算的财务数据,对于非违约上市公司,由于违约公司违约发生年份大多集中于2005年和2006年,故对非违约公司财务数据以2005年和2006年为基础做时间加权平均处理。
采取此方法的目的主要是由于企业各种指标会随着时间变化而变化,如果仅仅考虑最近一年的指标,可能会由于经济周期或偶然因素造成财务指标失真,最终影响违约概率测算的准确性。
为解决这一问题,我采取了基于2年时间加权的方法计算模型的输入变量。
公式为:其中,T取2,代表2年;X i代表按时间加权平均后的结果;X it表示指标i第t年的数值。
据此可知时间越晚的年份所占权重越大。
将违约和非违约公司数据经过时间加权方法进行调整,得到8个违约和31个非违约共计39个样本,用SPSS软件进行因素分析(抽取共同因素时选用主成分分析法)。
这里特别指出的是,诸多文献指出在进行此类问题的因素分析时,需先将数据按如下Z-score公式进行标准化处理:其中,x ij为第i个样本的第j个指标值,x j为样本第j个指标的平均值,s j为样本第j 个指标标准差,z ij为第i个样本第j个指标值标准后化的得分。
进行该标准化的目的主要为了消除各项财务指标由于量纲单位不同或正、逆性指标不同带来的不可比拟性,但经现有数据进行标准化前后的因子分析结果来看,分析所得数据和结论在标准化前后无丝毫不同,故本文未采取先将数据标准化,再进行分析,而是直接将数据进行了因子分析,过程和结论如下:KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy. .685Bartlett's Test of Sphericity Approx. Chi-Square 584.771 df 91 Sig. .000从上表看到,KMO值为0.685,当其数值越大时,表示变量间的共同因素越多,越适合进行因素分析。
一般大于0.5时,均适合进行因素分析。
此外,从Bartlett’s球形检验达显著,代表母群体间有共同因素存在,同样表明适合进行因素分析。
选取特征值大于0.6的抽取共同因素,共抽取6了个共同因素,可以解释的总变异量为91.701%。
另外,可以看到采用最大方差法转轴后每个因素的特征值和方差贡献率都发生了变化,但累计方差贡献率未发生变化,均为91.701%,而且转轴缩小了各因素方差贡献率之间的差距,使各因素解释原变量的能力更加平衡。
详见下表:以下是陡坡图,可以看到从第6个点后坡度线比较平滑,故可以侧面告诉我们选取6个因素是较为适宜的。
以下是未转轴的因素矩阵(因素负荷量小于0.1的未予显示)。
以下是经过转轴后的因素矩阵(因素负荷量小于0.1的未予显示),转轴方法为最大方差法,属正交转轴方法之一,也叫直交转轴法,其特点是因素间没有相关。
我们正是想利用这一特性避免在后面的Logistic回归中出现多重共线性。
另外,由下表可看出,转轴前共同因素1包含VAR12、VAR11、VAR10,共同因素2包含VAR5、VAR4,共同因素3包含VAR8、VAR6,共同因素4包含VAR13、VAR14、VAR17、VAR9,共同因素5包含VAR16、VAR15,共同因素6包含VAR7。
另外,从下面的因素得分协方差矩阵也可以看出6个公共因素是不相关的,从而达到了既简化财务指标数目,又防止出现多重共线性的目的。
下图是最终的得到的因素得分系数矩阵。
VAR00006 -.050 -.046 .502 -.062 .011 -.145VAR00007 -.069 -.131 -.093 -.030 -.026 .971VAR00008 -.033 .251 -.614 .073 .064 .047VAR00009 .019 .104 -.111 .230 .035 .038VAR00010 .255 -.073 .235 -.131 -.248 .120VAR00011 .480 -.067 -.055 -.153 -.022 -.096VAR00012 .564 -.093 .032 -.352 .056 -.030VAR00013 -.089 -.122 -.039 .609 -.132 -.206VAR00014 -.358 -.094 .019 .606 -.022 .253VAR00015 .146 -.131 .023 -.145 .471 -.054VAR00016 -.126 .210 -.111 -.084 .565 -.020VAR00017 .072 .033 -.064 .237 -.003 -.025由因素得分系数矩阵即可得到公共因素(F1-F6)被表示成14个财务指标线性组合的形式,如F1的线性组合如下:F1=-0.1VAR4-0.056VAR5-0.05VAR6-0.069VAR7-0.033VAR8+0.019VAR9+0.255VAR10+0.48VAR11+0.564VAR12-0.089VAR13-0.358VAR14+0.146VAR15-0.126VAR16+0.072VAR17所得到的用于下一步Logistic回归的原始数据从SPSS软件中已给出,即:*这里特别需要说明的是,此表中的FAC1_1与上面F1的计算公式略有不同,是由于SPSS将数据自动进行了标准化操作,即FAC1_1等于因素得分系数矩阵(a ij)和原始变量的标准化值的乘积之和,公式为:FAC1_1=a11*(VAR1-u)/σ+a21*(VAR2-u)/σ+...,其中u所有样本的均值,σ为所有样本的标准差。
*FAC1_1-FAC6_1可直接用于logistic回归,作为其自变量估计参数使用。
下面是所有数据准备完毕后,使用SAS软件的Logistic回归函数进行回归分析。
程序代码如下:ods graphics on; /*为绘制ROC曲线做准备*/proc logistic data=dr_logis.defaultrisk_logistic descendingplots=roc(id=prob);/*调用Logistic;指定绘制ROC曲线;descending用来指定按照选项order指定顺序的倒序排列,目的是为得到针对违约概率p的模型参数*/model y=FAC1_1 fac2_1 fac3_1 fac4_1 fac5_1 fac6_1/selection=stepwiseslstay=0.15slentry=0.15details lackfit stb;/*指定y为因变量,fac1_1到fac6_1为自变量;采用逐步筛选法,变量被选进和剔除模型的显著水平均为15%;details为输出选择方法的详细信息;lackfit为进行对模型进行拟合失真检验(Hosmer and Lemeshow Test);stb指定输出标准化数据模型选项*/ run;ods graphics off;以下为SAS软件执行以上程序输出的结果和相应的解释:Probability modeled is Y='1.00'.以上主要显示的是要建模的数据集信息,数据集为DR_LOGIS.DEFAULTRISK_LOGISTIC;响应变量为Y,0代表未违约,1代表违约;响应水平数为2;连接函数为binary logit;最优化方法为费雪得分算法;读入和使用的观测数均为39,其中违约观测数为8,未违约观测数为31;最后一行代表计算用的分析响应变量的概率模型值为1事件的发生概率以下是采用逐步筛选法对变量进行筛选的过程:Stepwise Selection Procedure从上表可以看出此模型时是收敛的,和变量无关,说明模型拟合达到收敛标准。
下表说明的是下一步可能进入模型筛选的变量信息。
其中第2、5、6号变量不符合我们制定的显著性水平达15%的标准。
第一个变量进入模型。
Step 1. Effect FAC1_1 entered:以上三个指标值均为越小越好。
以下三个指标值的p值均小于0.01,说明有显著统计意义,建模效果比较显著。
从上表可以看出,fac1_1前的系数显著。
Standardized Estimate是在模型代码中加入stb语句才出现的。
以上表格主要注意c统计量,它反映了实际观测值和模型预测的事件概率的关联强度,越高越好。
另外Percent Concordant代表ROC曲线所围面积。