因子分析+logistic回归度量信用风险违约概率

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于因子分析的logistic违约概率模型的实证研究

作者:葛钊

本文针对一般商业银行等单位采用Logistic回归估计PD的模型中多重共线性、没有考虑时间因素等问题,构建和验证了基于因子分析的logistic违约概率测算模型的效果和可行性,并对财务指标进行了时间加权化处理的模型改进工作,在最后对模型的进一步优化提出了新的思考和方向。

本文样本数据获取渠道为中国证券市场公开信息,选取6家在2005-2006年和2010年发生过银行贷款违约的制造业上市公司(违约笔数8笔),和31家同行业同期贷款未发生违约且非ST类的上市公司,并且总资产与销售规模与违约公司相似(考虑到建模样本数量过少,加入此约定为提高模型精度),组成39个建模数据,进行模型构造。其中,财务数据均取自违约/非违约公司对应违约年份前一年末或前二年末的数据,此是模型具有预测功能的必要条件。

6家违约上市公司8条违约记录(其中3条违约记录来自同一公司)如下:

6家上市公司发生逾期的贷款类型均为短期流贷,全部归属于公司风险暴露中一般公司风险暴露。另外,之所以将上海宽频科技股份有限公司的三次逾期数据全部纳入建模,是由于一方面可供建模的违约数据过少,将其加入不影响模型的建立和使用,另一方面数据量的增加增强了模型的预测能力。

31家非违约上市公司信息如下(合并报表数据):

*其中四川大通燃气开发股份有限公司在2006年由医药、生物制品类转为批发和零售贸易类;浙江钱江生物化学股份有限公司在2006年由医药、生物制品转为石油、化学、塑胶、塑料类。特此说明。

以下对从网络公开信息获取的数据,进行数据手机、业务定义、数据清洗、模型分组、模型分析、变量构造、变量分析和变量选择等步骤。

选取如下14个财务指标,作为建模数据估计模型参数。选取数据的原则主要是从数据的易获得性、完整性考虑的,同时为了免去单因素初步筛选等较为简单的过程,直接按现有资料综合选取了显著性较高的财务指标。所选指标全部是以百分比度量的财务比率,这样的好处是将企业规模等因素在模型系统中的影响最小化,提高模型的预测精度。

提取指标列表:

对于违约上市公司,做因子分析和Logistic回归时采用违约当年和前一年经时间加权计算的财务数据,对于非违约上市公司,由于违约公司违约发生年份大多集中于2005年和2006年,故对非违约公司财务数据以2005年和2006年为基础做时间加权平均处理。

采取此方法的目的主要是由于企业各种指标会随着时间变化而变化,如果仅仅考虑最近一年的指标,可能会由于经济周期或偶然因素造成财务指标失真,最终影响违约概率测算的准确性。为解决这一问题,我采取了基于2年时间加权的方法计算模型的输入变量。公式为:

其中,T取2,代表2年;X i代表按时间加权平均后的结果;X it表示指标i第t年的数值。据此可知时间越晚的年份所占权重越大。

将违约和非违约公司数据经过时间加权方法进行调整,得到8个违约和31个非违约共计39个样本,用SPSS软件进行因素分析(抽取共同因素时选用主成分分析法)。这里特别指出的是,诸多文献指出在进行此类问题的因素分析时,需先将数据按如下Z-score公式进行标准化处理:

其中,x ij为第i个样本的第j个指标值,x j为样本第j个指标的平均值,s j为样本第j 个指标标准差,z ij为第i个样本第j个指标值标准后化的得分。进行该标准化的目的主要为了消除各项财务指标由于量纲单位不同或正、逆性指标不同带来的不可比拟性,但经现有数据进行标准化前后的因子分析结果来看,分析所得数据和结论在标准化前后无丝毫不同,故本文未采取先将数据标准化,再进行分析,而是直接将数据进行了因子分析,过程和结论如下:

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .685

Bartlett's Test of Sphericity Approx. Chi-Square 584.771 df 91 Sig. .000

从上表看到,KMO值为0.685,当其数值越大时,表示变量间的共同因素越多,越适合进行因素分析。一般大于0.5时,均适合进行因素分析。此外,从Bartlett’s球形检验达

显著,代表母群体间有共同因素存在,同样表明适合进行因素分析。

选取特征值大于0.6的抽取共同因素,共抽取6了个共同因素,可以解释的总变异量为91.701%。另外,可以看到采用最大方差法转轴后每个因素的特征值和方差贡献率都发生了变化,但累计方差贡献率未发生变化,均为91.701%,而且转轴缩小了各因素方差贡献率之间的差距,使各因素解释原变量的能力更加平衡。详见下表:

以下是陡坡图,可以看到从第6个点后坡度线比较平滑,故可以侧面告诉我们选取6个因素是较为适宜的。

以下是未转轴的因素矩阵(因素负荷量小于0.1的未予显示)。

以下是经过转轴后的因素矩阵(因素负荷量小于0.1的未予显示),转轴方法为最大方

差法,属正交转轴方法之一,也叫直交转轴法,其特点是因素间没有相关。我们正是想利用这一特性避免在后面的Logistic回归中出现多重共线性。另外,由下表可看出,转轴前共同因素1包含VAR12、VAR11、VAR10,共同因素2包含VAR5、VAR4,共同因素3包含VAR8、VAR6,共同因素4包含VAR13、VAR14、VAR17、VAR9,共同因素5包含VAR16、VAR15,共同因素6包含VAR7。

另外,从下面的因素得分协方差矩阵也可以看出6个公共因素是不相关的,从而达到了既简化财务指标数目,又防止出现多重共线性的目的。

下图是最终的得到的因素得分系数矩阵。

VAR00006 -.050 -.046 .502 -.062 .011 -.145

VAR00007 -.069 -.131 -.093 -.030 -.026 .971

VAR00008 -.033 .251 -.614 .073 .064 .047

VAR00009 .019 .104 -.111 .230 .035 .038

VAR00010 .255 -.073 .235 -.131 -.248 .120

VAR00011 .480 -.067 -.055 -.153 -.022 -.096

VAR00012 .564 -.093 .032 -.352 .056 -.030

VAR00013 -.089 -.122 -.039 .609 -.132 -.206

VAR00014 -.358 -.094 .019 .606 -.022 .253

VAR00015 .146 -.131 .023 -.145 .471 -.054

VAR00016 -.126 .210 -.111 -.084 .565 -.020

VAR00017 .072 .033 -.064 .237 -.003 -.025

由因素得分系数矩阵即可得到公共因素(F1-F6)被表示成14个财务指标线性组合的形式,如F1的线性组合如下:

F1=-0.1VAR4-0.056VAR5-0.05VAR6-0.069VAR7-0.033VAR8+0.019VAR9+0.255VAR10+0.48VAR1

1+0.564VAR12-0.089VAR13-0.358VAR14+0.146VAR15-0.126VAR16+0.072VAR17

所得到的用于下一步Logistic回归的原始数据从SPSS软件中已给出,即:

相关文档
最新文档