搭建风控量化模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搭建风控量化模型
当前,大型金融机构已被监管机构批准使用内部模型来计量风险和监管资本;中小金融机构的积极性也很高,力求借鉴资本管理高级法,调整资产组合,提高资本使用效率,推进管理流程再造,由“干了再算”向“算了再干”转变。
以上趋势令人鼓舞。我们看到,强化风险量化管理的理念正在对中国金融业提高识别、计量和控制风险的能力产生重要的影响,中国金融业风险量化管理水平正在迅速提升。
如何更好地“算了再干”?为了回答这一问题,本文谈一谈金融机构的风险量化模型。为保证风险量化模型的开发质量和实施效果,金融机构所有的风险量化模型都应该参考模型建设和管理技术行业标准进行开发、评估和文档归档。下文总结了国内外信用风险量化模型建设和管理的先进经验,全面遵循这些要求有利于模型的建设、使用、监控、审批、上线。
模型的设计
模型的设计对模型最终是否能实现其目标起着举足轻重的作用。为了保证模型的设计可以满足模型的目标,审批人员应需要关注的是从哪些方面对模型的设计进行评估。总结来说,以下方面要特别留意。
要解决的业务问题
建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等。例如,信用卡部门要设计一个申请评分模型来测算新客户出现不良贷款的风险。这个模型在新客户审批过程的应用中,需要审批人员和客户进行沟通,手动输入一些关键的模型变量数值,在很多情况下还需要对模型的评分结果进行覆盖。这种模型在业务中的应用方式就需要在模型设计开发的过程中,考虑如何解决验证客户提供信息的真实性、员工手动输入数据的可靠性、对模型评分结果覆盖的审批案例如何进行表现监控等问题。
目标变量的定义
建模人员应该对目标变量的定义进行如下描述:明确描述目标变量的定义,并说明为何这样的定义与要解决的任务问题是相关的;明确定义目标变量的表现时间窗(performance window)和观察时间窗:例如,目标变量可以定义为未来12个月贷款出现至少一次60天或60天以上逾期的概率。在这个定义里,“未来12个月”为表现时间窗,“贷款出现至少一次60天或60天以上逾期”为观察时间窗。如果模型需要满足监管部门的要求,此定义是否满足监管部门的要求;为何选择这样的定义而不是其他定义;对定义可能产生的误解进行澄清,如定义是在客户层面还是账号层面的,定义是在观察期之间的表现还是在观察期结束的时间点的表现等。
样本的选择
建模人员应该对建模样本的选择进行如下描述:样本选择的方法,如有随机抽样和非随机抽样(有目的抽样),其中随机抽样方法包括简单随机抽样、等距抽样、分层随机抽样、整群抽样几种常用类型;非随机抽样也称为有目的抽样,包括全面抽样、最大差异抽样、极端个案抽样、典型个案抽样几种常用类型;样本的大小,为了增强可测性和检验的准确性,应该尽量增大样本容量,但同时还应考虑可行性和经济成本;建模样本、保留样本、验证样本的划分;样本可能有的偏差,如必须通过审批的条件限制、经过客户自然流失后的样本、外部因素的变化对样本的影响如产品特征、竞争对手的策略、经济周期、季节性因素等。
分析的方法
分析方法的描述应该包括以下内容:数据获取渠道的描述,主要分为直接渠道和间接渠道:直接渠道主要指通过统计调查获得的第一手统计数据,如办理信用卡业务时客户填写的个人信息资料、当下十分流行的大数据方法等;间接渠道通常指通过查阅资料或者通过其他网站、平台获取的二手数据,如通过WIND或Bloomberg获得数据;模型的结构,根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构建各个变量间的等式关系或其他的数学结构。同时,在建模过程中还应注意细节问题,如客户的分群、子模型的架构等;建模技术,在建模过程中常用到的数学方法和计算机技术,如logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等;变量的处理,如变量的剔除、转换、最大最小值的设置、缺失值的处理、变量相关性的处理等。
模型验证过程
验证模型是否有效的描述应包括:随机保留样本的描述,如选取记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。选取随机保留样本的标准、比例、特征等方面的描述;Bootstrap验证,是非参数统计中的一种重要的统计方法,在执行上常需借助计算机技术得以实现。举例来说,当总体可用正态分布描述时,其sampling distribution服从正态分布或服从t分布;但当总体不服从正态分布或未知时,我们采用计算机模拟或用渐进分析的方法更加有效;交叉验证,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集进行测试,再利用验证集来测试得到的模型,以此作为评价模型的性能指标。常见方法有Hold-Out Method,K-fold Cross Validation,Leave-One-Out Cross Validation;外来样本的验证,通过外部获取的样本对已有的模型进行检验,判断模型的有效性。
模型的局限性
一般来说,模型的局限性可以分为客观的、不能加以修正的局限性和可以通过人为修正的局限性。验证客观局限性的描述主要包括:系统的局限性;模型的局限性等;验证主观局限性的描述主要包括:建模时间的规划;建模人员的配置、人员水平等;业务和数据的理解上的局限性;样本的局限性;外部因素对模型的影响,如竞争对手的压力、合规时限的压力等。
模型的进度
主要包括有限资源的有效配置,在可以利用的资源数量一定的条件下,通过调配进度使项目工期尽可能短;建模时间的规划,几个有效时间节点的把控,如是否有外部竞争或合规方面的压力而需要在短时间内完成建模等。
数据处理
如何进行数据处理,是一个非常关键的环节。对于该环节,综观国内外经验,可以从以下八个方面给予关注。
建模原数据源的描述分析
建模数据的评估主要包括:数据的获取渠道,如内部数据集市、历史数据存档、第三方公司提供的数据等;数据的样本记录数及每一条记录所代表的含义;数据的变量的个数;数据的收集时间。
模型变量的描述
模型变量的描述应该包括对每一个变量定义的准确描述及变量的值所对应的含义。定义和使用变量时,通常要把变量名定义为容易使用阅读和能够描述所含数据用处的名称,而不要使用一些难懂的缩写如A或B2等。例如:编写一个销售苹果的软件时,我们需要两个变量来存储苹果的价格和销量。此时,可以定义两个名为Apple_Price和Apple_Sold 的变量。每次运行程序时,用户就这两个变量提供具体值,这样看起来就非常直观。
建模样本的大小和目标变量的分布
对此部分的描述应该包括:建模样本的大小是如何决定的;如何获得各个细度的数据记录并有效的控制成本;目标变量的分布,包括异常值、多峰性分布、负值的处理等。
数据时间窗定义
对此部分的描述应该包括:目标变量表现的观察时间:采用滚动时间窗或固定时间窗的方法;模型独立变量的观察时间;模型目标变量和独立变量数据是否有时间不足的情况,如有些样本的目标变量表现观察期不足,模型变量的观察时间不足等。
数据源有效数据的频率和缺失值处理
对此部分的描述应该包括:样本变量数据的有效频率;样本记录中有效记录的频率;某些变量或记录数据缺失的原因,这些缺失原因是否会对模型产生影响或偏差;在建模过程中,如何对数据源的各种数据缺失原因进行考虑。
建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等
每个模型独立变量的缺失值频率;模型独立变量的缺失值是否有具体的含义;缺失值出现的频率是否稳定;有缺失值的变量在模型中的重要性及表现的稳定性;每一个变量对缺失值的处理方法,包括采用中位数、平均数、最大或最小值、最好或最坏值替代,单变量处理,多变量处理,以变量减少、建模或评分、或拒绝原因算法为目标的处理等。
变量最大、最小值处理