基于中国联通大数据的个人征信评估方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分析思路
通话时长降低 通话范围减少
澳门赌场电话 高利贷电话
家人圈通话量降低 朋友圈通话量降低 同事圈通话量降低
中国联通这次的实践创新主要通过分析贷款个体 在放贷之后的通信行为、位置行为、网络行为的异常变 化,来发现贷款个体的资金风险状况,为放贷机构提供 预警,结合金融机构原有的甄别机制,规避资金的潜在 风险。 3.1 通信行为
经过长期数据分析和观察,我们发现多数稳定性较 好、信用值较高的社会个体的通信行为,通常会保持相对
关系圈的识别及亲密联系人的标记有效地反映了贷 款个体在现实中的真实社会关系,为行为状态变化的监 控提供了有力便捷的程序化工具。在此基础上,更进一 步的亲密联系人身份审核及信用评估,可以更全面地为 贷款个体信用评估提供参考。
3 贷后风控
放款之后的风险控制,一直以来都是放贷机构在整 个贷款流程中的薄弱环节。传统的监管方法很难有效地 反映出资金的真实流向,同时贷款个体的刻意“伪装” 行为也增加了贷后风险控制的难度。伴随着社会群体在 移动互联网行为上的普及,作为移动互联网的管道服务 提供商,中国联通结合互联网+的思维方式,利用收集 的用户行为数据,为金融征信的贷后风控提供了创新驱 动力,开拓了新的思路。
的持续性,不会因为贷款行为的发生而出现明显变化,因 此,通过对比分析贷款个体放贷前后的通信行为数据,可 以在一定程度上洞察到贷款个体将资金用于非正常消费途 径的行为。用于分析的数据主要包括通话和短信的关系 圈、时长、频次等指标,具体分析思路参见表1。
表1 通信行为指标及分析思路
Biblioteka Baidu
指标 通信习惯 异常通话 关系圈 待机状态
用户的通话、短信以及上网记录是用户通信行为 的重要组成。用户的通话、短信和上网记录反映了用户 的通信习惯、内容偏好等特征,我们将这些特征提取建 模形成用户通信系数模型。利用先进的图分析算法,我 们还从用户的通话和短信记录中分析出用户的朋友、家
37
系统与方案 Systems & Solutions
人、同事等相关用户,形成该用户的关系圈系数模型。 通过用户的通信系数模型和关系圈模型,可以反映出用 户在通信、内容以及社交方面的价值。 1.5 多指标聚合
36
Systems & Solutions 系统与方案
在信贷关系,而其余的社会个体仅有经济活动记录在 档。之所以出现这样的情况是因为我国居民与欧美发达 国家居民的消费习惯不同。我国居民更多习惯先储蓄后 消费,并且信用卡的普及率和使用率都远低于欧美发达 国家。这样,仅仅依靠金融系统内的信用记录来评估贷 款个体的信用情况在很多情况下会有失偏颇[5]。
运营商的网络每天都会产生巨大的信息量。2001 年,全球IP流量达到1EB所需时间为一年,而发展到 2013年,时间大幅缩短仅仅需要一天,预计2016年将 再次缩短至半天[1]。伴随着这些流量的产生,运营商的 网络同时积累了大量的用户身份、套餐消费、语音通 信、短信通信、位置信令、手机上网等数据,而且运营 商数据的一大特点是其数据真实性高、质量高、含金量 大。这些快速增长的不同类型数据为运营商进行征信服 务提供了得天独厚的条件。金融机构可以利用先进的大 数据分析技术通过对运营商数据的分析,实现对自身 的信用体系“增信”,当然运营商自身也可以利用这 些数据进行“征信”,进而对内部的传统业务提供信用 服务[2]。
䗮ֵ䆄ᔩ
⓿␌⢊ᗕ
⫼᠋ᴀֵᙃ
⫼᠋䋺ऩ
⫼᠋ᴀֵᙃ ⫼᠋䋺ऩ ⓿␌⢊ᗕ 䗮ֵ䆄ᔩ
图1 贷前评估贷款个体信用评分参考要素
在我们的征信模型中,不同来源的数据可以从不同 方面反映用户价值。长期跟踪记录用户的这些数据,可 以反映用户价值的稳定性。运用该模型衡量用户价值和 用户稳定性,最终得出贷款个体的信用评分。
系统与方案 Systems & Solutions
基于中国联通大数据的个人征信评估方法
陈一昕1 谷静宜1 王 蕾1 朱志勇1 刘韵洁2 1 中国联通研究院 北京 100032 2 中国联合网络通信有限公司 北京 100033
摘 要 中国联通利用当前市场化征信业务起航下运营商所具有的得天独厚的优势,结合互联网+的思维模式,提 出一种新的个人征信评估方法。文章结合我国金融征信体系的现状,介绍中国联通在当前大数据背景下,利用自身 数据特点,对用户基本信息、通信行为特点、关系圈亲密联系人及时空数据等进行分析,从贷前、贷中和贷后三个 维度建立个人征信评估模型。 关键词 中国联通;个人征信;征信评估模型;大数据;风险控制
2.2 关系圈识别 现代社会中移动通信成为人们日常生活、工作进
行有效沟通和交流的重要方式。除了对通话时长、通话 频次等指标的常规统计分析外,对应网络空间中的用户 群体关系与行为在很大程度上能够反映出用户的真实 社会群体关系与行为。我们将贷款个体的关系圈分为家 人圈、朋友圈、同事圈(见图2)。运用数学建模、图分 析等方式识别这三类关系圈,并标记亲密联系人。通过 对贷款个体关系圈的了解及监控,可以有效预警贷款 个体的行为动态变化,如家人圈通话频次突然降低或 者高频,以及同事圈及朋友圈的大面积变动都预示着 风险。
1 贷前评估
我国现有个人征信体系围绕银行构建而成,央行征 信基础数据库以信贷信息为核心(信用卡、银行贷款和 其他信用贷款记录),同时,也包含公共记录和查询记 录。个人和相关机构可以随时查询自己的信用记录,了 解自己的信用状况。据央行数据统计显示,截至2012 年12月底,央行征信中心的金融信用信息基础数据库 已为8.2亿社会个体和1 859.6万户企业建立了信用档 案[3-4]。该数据库记录覆盖了我国约一半的人口, 然而 在这8.2亿的社会个体中,仅有不到40%与银行真正存
1.1 用户基本信息 用户基本数据包括用户的姓名、年龄、性别、终端
型号等基本信息。确认用户的真实身份信息对于开展征 信业务具有最根本最重要的意义。如果无法确认用户的 真实身份信息,仅仅依靠用户的互联网行为对贷款个体 信用情况进行评估,甚至有可能发生把信用评分打给一 个15岁的初中生这样的事。得益于实名制政策,运营 商的绝大多数用户数据能够直接匹配到用户的真实身份 信息。这使得我们的征信模型不仅仅应用于互联网电商 等对用户身份要求不严格的新行业,同时,能够支持对 用户身份要求非常严格的银行、小贷公司为主体的传统 金融行业。 1.2 用户账单
征信市场目前还处于相对初级的阶段,未来还有一 个不断发展的过程。当前传统征信主要针对授信机构, 如银行、小贷、担保、P2P、租赁等,但未来征信服务 的边界将不断扩张,应用场景也会更为丰富。利用运营 商的用户信用评分来进行贷前评估,将会成为运营商大 数据征信的一个重要应用。
2 贷中审核
贷中审核是贷前评估之后又一个重要的风险控制环 节。传统的风控方法中,贷中审核人员会对贷款中贷款 个体的还款状态、近期行为状态进行监控,并进行相应 的信息更新。通常采取与贷款个体定期人工沟通的方式 保持畅通联系,避免与贷款个体失去联系及贷款个体状 态发生变化而导致的风险。该类传统方式缺乏实时性, 同时也难以规避贷款个体蓄意作假的风险。中国联通作 为移动运营商积累了丰富的数据宝藏,基于这座数据宝 藏,中国联通结合自身数据特点,为构建程序化、实时
ᵁਁാ
ੂӁാ
ᇬӰാ 图2 贷中审核关系圈识别
38
Systems & Solutions 系统与方案
关系圈识别以通话详单、短信详单及位置数据为主 要数据源。对原始数据进行清洗,如剔除广告电话(如 400、800等)及固定电话,保留移动电话号码及银行相 关服务号码,由此构成复杂的通信社交网络。在该网络 中,贷款个体的现实社会关系便可以实现一定程度的真 实体现。在此基础上,根据贷款个体通话行为的时空特 点判断其关系圈组成。如与同事的通话行为呈现通话多 在工作时间,常驻位置区域重合,通话时长较短等。程 序化地对原始数据进行特征抽取,生成多维指标,并通 过数学建模及图分析,得到标记过的贷款个体关系圈及 亲密关系人。
基于以上多个指标,我们最终采用多指标聚类系数 化的方法把上述不同数据的系数模型进行整合,最终形 成贷款个体的信用评分。
运营商的数据不依赖于用户上传,而是IT系统实时 采集记录到数据仓库中,因此具有很高的可信度。很 多集中建设的IT系统,基本上可以做到数个小时内的延 迟,因此运营商的信用评分拥有很强的时效性。随着 用户数据的不断更新,用户的信用评分也会进行更新。 用户自己可以随时查询,也可以授权相应的机构查询信 用评分,并依据此信用评分来评估自己的信用水平。来 自运营商的信用评分也可以为传统的贷款机构提供“增 信”服务,通过查询用户在运营商的信用评分来简化流 程,控制风险。
用户账单数据反应了用户每月的消费情况。用户每 月在语音、流量以及增值业务上的账单金额能够反映用 户的生活和消费习惯;而用户每月的总账单额、缴费情 况等信息能够反映用户的消费能力。利用先进的建模方 法将这些信息汇总形成消费系数模型,可以综合反映用 户在消费能力和消费习惯方面的价值。 1.3 漫游状态
得益于中国联通遍布全国的几十万台基站,我们可 以随时掌握用户的位置信息。用户的漫游状态数据不仅 包含用户在不同省市之间的出行情况,还同时记录了用 户在同一城市中的不同位置,甚至可以详细到不同建筑 的不同楼层。根据漫游状态数据,我们可以提取出用户 的家庭住址、工作位置等信息,同样也可以提取出用户 的出差、旅行等信息,将这些信息汇总建模,形成用户 的漫游系数模型,反映用户在地理位置方面的价值。 1.4 通信记录
引言
随着大数据时代的到来和快速发展,各种各样的用 户数据都可以用于转化、评估、体现个人信用。除现有 银行系统拥有的传统基础信息和金融数据外,互联网公 司拥有的个人上网行为数据(如社交行为、电商消费行 为等)、电信运营商拥有的通信行为数据、位置及全网 移动互联网数据,以及公共事业单位拥有的日常支付消 费数据等都具有很大的参考价值。
运营商自身可以比较详实地勾勒出一个用户的信用 画像。依托于庞大的用户群体以及全面、及时、形式多 样的用户数据,运营商可以建立基于用户通信行为数据 的征信记录,并将其提供给个人和机构查询、使用。
事实上,中国联通已经在这方面做出了研究和探 索。依托通信行为数据、位置及全网移动互联网数据, 我们已经开发完成了一套个人征信评估模型,用于评估 联通用户的信用状况。为了保护用户隐私,同时保证信 用记录在不同机构和个人之见的高可用性和拓展性,我 们团队和中国人民银行合作,创新性地提出多指标聚类 系数化的方法,将所用基本指标分类(如财务类、通信 类、漫游类等),将多个同类指标数据通过建模的方式 进行数据处理,各类别以系数化的结果输出,最终汇总 成为用户信用评分。图1为中国联通个人征信评估模型 中不同数据来源在最终用户评分中所占的比重。
电信业的数据优势主要表现在全面、及时、形式多 样、可信度高等方面,但如何在保证用户数据及企业数 据安全性的基础上实现数据开放,将运营商征信相关数 据提供给征信数据使用方,充分有效地使用这部分数据 对贷款个体进行信用评估,这是增信数据开放管理研究 和关注的热点问题之一。通过调查研究市场中的常见方 法,并对比各种方法之间的优缺点,我们提出了自己的 解决方案:从贷前、贷中和贷后三个维度建立模型,通 过数据指标的系数化,实现隐私数据脱敏,防止贷款个 体明细数据泄露,同时,保证数据可开放性和灵活性前 提下构建个人征信评估方法。
的贷中审核手段进行了有效探索。主要方式为:1)分 析贷款个体的通话行为特点;2)识别贷款个体关系圈 标记亲密联系人,达到对其进行身份审核及近期行为状 态变化监控的目的。
2.1 通话行为特点分析 通过贷款个体的通话行为特点可以对其进行身份审
核,有效避免资料蓄意隐瞒或者作假行为,另一方面还 可以对其近期行为变化进行监控。如从事中介、销售等 职业的贷款个体,其拨出电话数远高于接听电话数,且 通话时长较短,时间及地点都呈现规律性。另一方面将 贷款个体的拨出电话方及接听电话方与机构电话数据库 进行对比,可发掘贷款个体是否接到过法院电话或者拨 打过赌场电话等有可能危及还款的行为变化。