基于Probit模型的个人信用风险实证研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2009-08-21
作者简介:郑昱,女,现就读于清华大学经济管理学院
。
本文在借鉴国内外个人信用风险评估方法的基础上,运用Probit 模型对随机抽取的自然人样本进行定量分析,以此建立相对客观和准确的个人信用风险评估模型,希望能为我国商业银行个人信用评估的方法和机制的建立和完善提供一定的借鉴。
一、Probit 模型简介
Probit 模型是假设事件发生概率服从累积正态分布函数的二分类因变量模型,也称为Normit 模型。即假设每一个体都面临两者择一的选择,且其选择依赖于可分辨的特征,旨在寻找描述个体的一组特征与该
个体所做某一特定选择的概率之间的关系。
设每一个样本都存在一组变量X ,这些变量的线性组合可以使每一个样本得到一个分数Y i *:
Y i *=j
Σβj X ij +εi =X i B+εi
假设εi ~N(0,1),故Y i *服从标准正态分布。
Y i *代表某种内在变量或是隐藏变量,在个人信用评估研究中,可代表借贷人发生违约的倾向。当
Y i *>0时,可观测变量Y 即等于1(借贷人违约);当Y i *≤0,则Y=0(借贷人未违约),用数学式表示如下:
P i=E(Y i=1|X i)=P(Y i*>0)=P(-εi 其中F(·)表示标准正态分布的累计分布函数,亦即 F(X i B)= X i B -∞乙f(z)dz 其中f(z)代表z的密度函数,z~N(0,1)。 取标准正态分布函数的逆: Y i*=F-1(P i)=X i B 利用最大似然估计法估计上式中的参数。最大似然估计法是通过迭代计算完成的,具体回归参数计算利用STATA10.0统计软件完成。 二、Probit模型评估个人信用风险的实证分析 (一)数据来源 本文随机抽取的样本共600份,剔除数据缺失和异常的样本以及从未使用过信贷消费的样本,共采集506份有效样本用于实证分析研究。根据样本主体信用卡和贷款逾期状况(出现逾期的为302人,正常的为204人),将样本划分成违约组和正常组两类。样本数据主要涵盖了个人背景基本状况、职业相关基本信息以及与个人偿债能力密切相关的收入、资产及信贷基本状况等信息。 (二)指标体系 本文借鉴国内外个人信用风险评估方法中使用的有效指标,在分类、汇总、整理的基础上,同时兼顾数据的可获取原则和可量化原则,构建了模型基础指标体系(见表1)。该指标体系包括个人背景指标、职业稳定指标,以及收入、资产和信贷状况指标,共13个待检验指标。 表1模型基础指标体系 由于上述13个基础指标的大部分需要以虚拟变量的形式进行处理,因此本文根据各指标所包含的具体信息,对指标进行了细化,确立了含有16个虚拟变量和3个连续型变量的最终指标体系(见表2)。为避免共线性,实际用于实证检验分析的变量为17个。 表2模型最终指标体系及变量说明 (三)实证分析 本文采用Probit Model和Stepwise Probit Model 对数据进行回归分析。在设定显著性水平时,考虑到过高的显著性要求会导致最后进入模型的变量过少,直接影响模型预测的精度。因此,本文在保证模型预测正确性的基础上,设定显著性水平P=0.1。本文所有的数据分析均使用STATA10.0统计分析软件来完成。 1、Probit Model回归分析。 将17个指标自变量和表示借贷人是否逾期的分类指标(0代表正常组,1代表逾期组)数据输入STA-TA10.0,使用Probit Model进行回归分析,回归结果见表3所示。 表3Probit模型回归结果 根据基础模型的回归结果,建立如下Probit模型: F-1(P)=-0.8627837-0.1636615Resident-0.3535388Sex+0.4034005Age1+0.3605586Age2+ 0.5472821Age3+0.0647854Marriage-0.1639155Education-0.1090042Job1+0.0843066Job2+ 0.5965952Job3+0.1384018Leader+0.1168458Change+ 4.33e-07Income-0.0985426House-0.1830559Guarantee+0.3064391Card+0.4866441Loan 从各变量系数估计值可以看出,户籍、性别、教育、Job1(政府机关,事业单位,金融,垄断行业)、住宅数量及为他人担保状况,共计6个变量的系数值为负,其意义可解释为: ①外地户籍个人较本地户籍个人发生逾期的概率小; ②女性发生逾期的概率比男性小; ③接受本科及以上教育的个人发生逾期概率比未接受者小; ④政府机关、事业单位、金融、垄断行业从业者,发生逾期概率较低; ⑤个人自有的住宅数量越多,发生逾期的概率越小; ⑥为他人提供担保的个人发生逾期的概率小于未提供担保的个人。 以上6个指标变量中与常用的个人信用评估标准不一致的变量为户籍和为他人担保的情况,考虑到总共506个样本中有担保的样本数量仅为7个,这一结果显然存在很大偏差;而户籍变量的显著性水平为0.217,大于P=0.1的显著性水平临界值,不能判定为显著,且户籍这一变量有其特殊性,若用在本地居住年限代替,对于衡量借贷人的居住稳定性,效果可能更明晰。 剩余的系数值为正的变量中,包括年龄分段、婚姻、工作、职务、收入、信用卡、贷款状况,更换工作情况共11个变量,其意义可解释为: ①按年龄分段,25-35岁个人发生逾期的概率最低,35-50岁个人则最大; ②非单身的个人逾期的概率比单身的个人高; ③一般企业员工发生逾期的概率小于个人经营者; ④更换工作较多的个人发生逾期的概率也较高; ⑤担任领导者的个人逾期的概率大于非领导者; ⑥个人的收入越多,发生逾期的概率越高; ⑦信用卡数量多于5张,或贷款金额超过50万元的个人,逾期的概率较高。 以上变量中与常用的个人信用评估标准不一致的变量包括年龄、婚姻、收入和职务状况,可能的原因包括:一是这些变量本身的显著性水平并不高;二是这些因素可能对逾期概率有双重影响,如收入较高的人一方面具有较强的偿债能力,不易发生逾期;但另一方面,使用信贷的频率较高,数额较大,发生逾期,尤其是非恶意性逾期的潜在可能性也较高。用同样的道理也可以解释婚姻、年龄及职务状况的结果。 此外,也可能由于样本本身的数量和质量的局限性造成偏差。即使是与常用的个人信用评估标准完全相符的变量,也需要关注其显著性水平值,再做进一步的研究。若设定P=0.1为临界值,只有Sex,Card, Loan,Change四个变量结果显著,目前的基础模型中较多的变量不利于观测各变量的显著性水平,以下将采用Stepwise Probit Model,剔除不显著的变量,对模型进行简化。 2、Stepwise Probit Model回归分析。 设定显著性水平P=0.1作为变量选择的标准,采用Stepwise Probit Model,分别用Forward Selection和Backward Selection的方法进行逐步回归,对Probit模型回归的结果做出简化,去除显著性水平较低的变量,得到如下表4和表5所示的结果。