600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 金融大数据风控建模实战(一)智能风控背景

金融大数据风控建模实战(一)智能风控背景

时间:2024-01-26 18:45:34

相关推荐

金融大数据风控建模实战(一)智能风控背景

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

前言一、金融科技介绍1.技术创新推动金融创新的巨大力量2.智能风控和评分卡二、机器学习介绍1.概念2.分类三、评分卡模型介绍1.申请评分卡2.行为评分卡3.催收评分卡4.反欺诈模型总结

前言

提示:

这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、金融科技介绍

1.技术创新推动金融创新的巨大力量

阿里巴巴:支付宝每天通过类似银行的方式处理超过一百万笔交易,创造了287万直接和间接就业机会,为40多万家中小企业提供了3000-5000美元贷款。使用芝麻信用评分代替传统信用评分来辅助中小企贷款。

将小微金融,普惠金融,智能金融列为重大转型方向

2.智能风控和评分卡

开发流程:

1.数据清洗

直接将缺失状态作为特征处理

2.预处理

3.特征工程

4.模型优化

二、机器学习介绍

1.概念

学习更高维度的规律,并辅助人们合理决策

2.分类

1.有监督

分类问题、回归问题

—线性回归模型、神经网络模型、支持向量机模型、决策树模型、随机森林模型、Xgboost、深度学习模型

需要提前准备好大量样本

2.无监督

—聚类分析、降维、关联规则分析

不需要目标变量的参与,而是在输入变量之间寻找规律

3.强化学习

特定场景下通过不断试错的方式进行自我更新并学习

需要输入数据集和反馈信息

三、评分卡模型介绍

1.申请评分卡

快速授信,授信质量。

1.1数据获取

反欺诈模型验证后,可认为得到的数据都是真实的。

1.2好坏样本定义

1.3观察期和表现期确定

关联到机器学习模型,就是在观察期收集训练样本x,在表现期收集预测目标y,得到完整的有监督训练集。

观察期窗口要能积累较多的建模数据(有足够的坏样本),同时考虑申请周期的影响。

表现期–账龄分析确定观察期,表现点确定好坏样本,八个月趋于平缓,实际中3-6个月。表现点后的坏样本可以过了模型的时效性,可以采用行为评分卡和催收评分卡进行补充。

1.4样本分层

考虑评分卡构建数量:业务理解分层,数据驱动分层

数据驱动:有监督–决策树:首先建立决策树分类模型,区分好坏用户;会看哥哥叶子结点,尤其是最初基层,对分类结果影响较大;最后分析各个叶子结点;最后分析叶子节点是否有现实意义,能否与业务结合,某个节点能否作为分层依据。

无监督–聚类分析,数据探索环节,通常与可视化结合,不断迭代尝试。

1.5数据清洗与预处理

删除缺失值比例高的变量和方差较小的变量,并进行统计性描述。

统计性描述中可以通过可视化观察是否存在异常值,算法异常值检测:箱线图,DBSCAN,LOF,随机森林

1.6特征工程

衡量客户是否会短时间内资金紧缺。

结合现有数据,找到可以衡量借款人的未来行为趋势。

状态评估指标:借款人基本信息

还款能力指标:

信用状态指标:个人征信信息、第三方信息

还款意愿指标:

大量变量衍生,提高模型的准确性。通过相乘或除实现,加减没有意义。

加减,多重共线性,模型优化时产生振荡,影响模型预测稳定性。

1.7模型训练与优化

机器学习模型训练集和测试集要求来自同一个样本总体

2.行为评分卡

借款人通过授信后进入贷中风险管理阶段。一般适用于动态风险评估,适用于信用卡的风险评估。

2.1数据获取

还款期间其他平台的还款情况、近期消费情况、银行流水、行为轨迹

2.2时间窗口

假设观察期时间窗口为六个月,在确定观察点后向前追溯借款人六个月的行为特征为建模样本。分析行为数据时,采用时间切片方法。时间窗口不宜过小。

假设表现期6个月,则可以在表现期内确定样本的好坏性质;如果是36个月,采用滚动建模和预测方法,得到整个换款周期的风险预测。

需要剔除的样本:

观察期部分:剔除还款期小于观察期的样本,提出在观察期就已经发生M3或M3+的样本。要预测的是可能出现M3/M3+的样本

表现期部分:剔除已发生预期但不到M3的样本,这些样本为不到表现期的样本,在观察期M1/M2逾期的不剔除。

明确建模预测目标,是违约还是逾期。

2.3特征工程

OA=2,OB=4,OC=6

平台内部数据:借款人真实逾期状况,实际还款率(本月还款总额/上月应还总额),设备指纹特征

第三方数据:统计其他平台借款申请,消费行为分析,运营商数据使用

3.催收评分卡

贷后管理

3.1分类

轻度、重度、核销(知识图谱失联修复)、资产清收

3.2催收策略

还款能力模型、还款意愿模型,决定催收策略

4.反欺诈模型

在审批阶段试图识别借款人的好坏。在申请评分卡之前现执行反欺诈评估,尽可能多规避欺诈客户。

4.1欺诈风险与信用风险比较

欺诈客户没有还款意愿,通过找到风控系统的漏洞或伪造信息获利。

4.2好坏样本定义

目标变量突出还款意愿区别

观察期时间窗口不能太长,欺诈用户一旦表现出逾期,不会偿还,好客户、坏客户、欺诈客户、不确定客户四种。

4.3欺诈主体分析

第一方、第二方、第三方

4.4反欺诈方法

身份校验:身份证名字与身份证号对应;手机:姓名、身份证号、手机;银行卡:姓名、身份证号、手机号、银行预留手机号。

身份校验通过后进行反欺诈规则与反欺诈模型评估。规则:命中即拒、组合命中拒绝。常用:黑名单信息、IP识别、虚假号码识别、设备指纹识别、多头信息、关系网中黑名单或多头信息等。有监督无监督:有监督方法欺诈样本少,用历史数据训练不能发现新的欺诈模型,无监督学习的聚类方法是很好的方式们可以发现新的欺诈模式,也可以发现类似的欺诈团伙。

先做特征工程,识别客户信息中不符合逻辑的地方。

APP登录信息、运营商信息、指标与正常值的偏离度(未来提高审核通过可能性,还款能力优异)、变量交叉验证(发现在不同特征组合下违背常理的情况)、多头借贷

特征工程完成后简单的规则可以通过专家经验总结得到,但是复杂的规则要经过模型训练得到。有了特征后可以建立评分卡模型或更复杂的Xgboost模型,给出欺诈分并设定阈值给予拒绝或通过的判断。

总结

例如:以上《python金融大数据风控建模实战》的阅读笔记(一),非原创内容。如涉及侵权立马删除。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。