信贷风险数据(贷款说的大数据是什么)
前言:
(历史数据维度,现有变更仅供参考)
但显而易见的是,在一系列断直连政策和个人信息保护法的强力监管下,数据的获取和使用势必会越来越合规。现在,如何利用各机构的外部数据源来评价外部数据源的维度与过去相比是否发生了变化?
今天我们综合了Planet同学的一些需求,整理了这样一篇关于外部数据使用的文章,希望对所有风控人员在数据使用上有所启发。
因为整个内容比较长,所以这整个内容会分成四个部分给大家介绍。整个目录如下:
第一部分。外部数据的组成和分类
第二部分。外部数据的评估过程
第三部分。决策流程中外部数据的在线和监控
第四部分。100家银行个人信用报告的应用
另外,关于三方数据的测试,在知识星球,我们会手把手讲解具体的实用内容,包括数据展示(excel)、数据案例和代码(python),一看就懂,一跑就做。
第一部分。外部数据的组成和分类
相比几年前流行的爬虫数据,现在的外部数据更加注重合规性和个人隐私保护。很多第三方公司通常不输出个人详细数据,而是以模型划分和特征脱敏处理的形式输出。我们知道,目前市场上常见的外部数据包括以下几类:
1)黑名单:主要是逾期黑名单和欺诈名单。
2)多连带债务:一般以指标形式输出,通过时间窗口、应用平台类型等维度交叉得出。
3)电商消费类:一般以模型积分的形式输出,少数机构会输出消费类的衍生指标。
4)支付类别:一般以模型评分的形式输出,少数机构会输出支付类别的衍生指标。5)信用风险类别:包括逾期、还款指标、信用评分、欺诈评分等。
6)数据验证:三要素验证、手机号码状态验证、在线状态验证等。
7)运营商类别:包括用户的通信消费和根据流量使用情况生成的偏好标签。
8)行为类:用户在各类app上的常见使用行为。
第三方平台是如何获得上述数据的?以下是一些常见的访问方式:
2.短信渠道:部分机构会从用户短信中提取贷款、逾期、催收等特征。
3.支付渠道:与支付公司合作,通过支付记录提取用户消费和收入的数据。
4.手机输入内容:输入法软件会记录用户的输入内容,从中可以提取个人喜好等标签。
第二部分。外部数据的评估过程
外部数据的应用可以概括为以下步骤:
确定访问三方的目的。
了解三方的产品构成。
与三方沟通测试产品和测试样品数量。
准备样本供三方回溯数据。
检验三方数据的效果。
向业务部门反馈产品报价。
访问第三方
三方在线跑步。
正式推出三方。
三方数据监控
重点是离线数据的评估和接入后的数据监控。下面将详细阐述这两个部分:
在评估之前,首先要确定访问三方的目的。不同的目的会对数据选择和评估有不同的看法。常见目的如下:
1)用于贷前优化风控策略,将优先接入信用指标、黑名单或模型点。
2)对于风险定价或限额策略,将考虑获取能够反映收入和负债的数据。
3)用于优化已有模型或用外部数据做定制模型,一般与指标类的数据连接。
目的确定后,寻找合适的数据服务商,了解对方的产品构成、数据获取方式、产品报价等。采集方式能体现数据的真实性和有效性,产品报价关系到调用数据进行风险控制的成本。知道这些之后,我们就要准备测试样本了。因为它花费t
1)样本应代表测试客户群。例如,如果目的是优化新客户策略,并且它是针对大渠道的用户,则应该选择该渠道的新客户样本。
2)所选样本中客户群体的稳定性不在特定时间段,如逾期潮、产品刚推出、策略重大变化等。这种稳定性也可以体现在不良率在时间维度上的变化。如果客户群一直不稳定,尽量选择最新的样品。
3)样本在时间维度上的连续性可以评价数据的时间分布和效果的稳定性。
4)样品需要取样吗?如果三方机构免费测试量小,会考虑抽样。常见的有随机抽样和分层抽样。分层抽样适用于不良率低的样本,会欠采样好用户,增加不良用户的比例。但是分层采样后建模会有坏率失真的影响。最好的情况是做随机抽样或者不抽样,这样评价结果更接近真实情况。
数据的评估角度应该基于访问目的和数据类型。这里先列出常见的评价角度,再结合具体情况进行说明:
此外,根据指数数据对产品或定制模型评分。如果评估结果良好,我们还将考虑该模型得分与相连三方模型得分之间的相关性,具体体现在:
1)业务角度:根据模型底层使用的数据,比如新连接的模型点A使用的是支付数据,线上的模型点B也是支付数据,所以两者有一定的相似性。如果连接到同一个支付公司,相似度会更大。
这种情况考虑选择其中一个即可。2)统计角度:即计算两者之间的皮尔逊相关系数,根据经验,系数绝对值在0-0.2之间是极弱相关,0.2-0.4为弱相关,0.4-0.6是中等程度相关,0.6-0.8是强相关,0.8-1是极强相关。如果两个模型分的相关系数很高,则说明他们对于决策的作用是重叠的,要考虑舍弃其中一个来降低数据调用成本。
PART 3.外部数据在决策流的上线及监控
针对串行式决策流,要考虑接的数据放在哪个决策节点,一般是根据效果和价格综合考虑。如果本身数据调用成本就比较高了,则更考虑价格,价格高的话可以放在下游节点来降低调用成本。如果更看重效果,则效果比较好的话建议放在上游节点,因为上游调用的用户多,这样做可以提高整体风控的精准度。
数据上线后建议先空跑个一两天,观察调用接口的稳定性和空跑出的模型分分布是否符合预期。正式启用后需要做监控来观察实际的线上效果。监控包括:
1.前期监控(上线初期无贷后表现):
1)数据的查得率,是否和线下测试时一致。
2)数据分布的稳定性,可根据规则拒绝率和PSI来衡量。
3)上线前订单通过率VS上线后订单通过率,衡量数据上线后对风控通过率的影响。
2.后期监控(有贷后表现):
1)线下评估结果与线上真实效果的比对,观察通过样本尾部的lift表现是否一致。
2)当有了一段时间的贷后样本时,可分析数据线上真实效果的稳定性,例如模型分的KS是否出现随时间变化有下滑趋势。
3)上线前整体坏账表现VS上线后整体坏账表现,评估数据对于降低坏账的真实效果。
PART 4.百行个人征信报告的应用
在目前征信业务合规化的背景下,百行征信作为一家持牌的征信公司,很多信贷机构都在陆续接入使用它的数据,下面简单介绍下百行个人征信报告在风控中的应用。
本次关于百行征信的内容,我们会将相关的数据分为:
简版跟明细版跟大家介绍
其中简版内容包括:
①个人基本信息
②居住信息
③工作信息
④信贷信息
这四个模块
明细版本包括:
①个人基础信息
②居住信息
③工作信息
④指标类的信贷信息
⑤明细类的指标信息
这五个模块
在以上的内容中,除了会详细介绍百行征信的组成部分外,还会详细介绍每个模块的详细细则与具体的指标加工信息,另外涉及大的百行的应用与目前存在的问题都会分别跟大家进行介绍。
以上详细内容,未完待续......
各位同学可以提前到知识星球平台了解剩余内容。
另外关于本次三方数据的测试,我们更会将整体内容以文件包(数据集 代码)同步到知识星球平台,跟大家进行具体的实操演示。
~原创文章
...
end