目录
1.评分卡模型解释
2.探索性数据分析
3.数据预处理
4.构建逻辑回归模型
数据集:数据
1.评分卡模型解释
一个用户总的评分等于基准分加上对客户各个属性的评分。客户评分=基准分+年龄评分+性别评分+婚姻状况评分+收入评分
如某客户年龄为27岁,性别为男,婚姻状况为已婚,月收入为20000,那么他的评分为:100+4+3+4+4=115
模型最低评分:100-10-4-4-10=82
模型最高评分:100+10+4+4+10=128
模型评分范围:82至128
通常情况下,即高分值代表低风险,低分值代表高风险。
2.探索性数据分析
获取数据的大概情况,例如字段的缺失情况、异常情况、平均值、中位数等分布情况,以及各字段与借贷字段二元分布,并制定合理的数据预处理方案。
本次探索性数据分析采用Tableau快速构建数据图。
代码:
3.数据预处理
3.1数据清洗
3.1.1异常值处理
一般异常值处理有基于密度的异常值处理、基于距离的异常值处理,本次采用基于距离的异常值处理对异常值处理。
3.1.2缺失值处理
删除缺失率超过某一阈值(阈值自行设定)的变量,
一般缺失值处理有均值填补、插值法、算法拟合等方法处理,本次采用随机森林算法拟合对缺失值处理。
代码:
3.2分箱变量
等频分箱:把自变量按从小到大的顺序排列,根据自变量等分成k份,每部分作为一个分箱;
聚类分箱:用k-means聚类法将自变量聚为k类;
split分箱:基于entropy,gini和 IV值进行变量分裂;
chimerge分箱:两个相邻的区间具有类似的类分布,则这两个区间合并;否则它们应保持分开。采用卡方值来衡量两相邻区间的类分布情况。
分箱过少:很难捕捉到数据的特征。分箱过多:可能是造成过度学习的原因。欠损值设为独立箱,分箱是必然会造成信息的损益。
代码:
3.3WOE与IV
3.3.1 WOE
WOE字面意思证据权重,对分箱后的每组进行。假设good为好客户(未违约),bad为坏客户(违约)。
WOE表示每个分箱里的坏好比相对于总体的坏好比之间的差异性。WOE越大,差异越大,WOE越小,差异越小,若WOE=0,则分箱没有预测能力。检查每个分箱(除null分箱外)里WOE是否满足单调性,若不满足,从新分箱。若相邻分箱的WOE值相同,则将其合并为一个分箱,全部相同重新分箱对变量进行变换,使其建立单调关系。将其“重新编码”到任何有序的度量,WOE变实际上是在“逻辑”尺度上对类别进行排序,人为地将变量呈线性,适配于逻辑回归模型。对于离散值变量,将这些离散值分组密集填充,可以用WOE来表达整个类别的信息,因为WOE是标准化的值,可以在不同类别和变量之间进行简单的比较。WOE可以抑制偏离值的影响。WOE是一种“单变量”的度量,因此它没有考虑到变量之间的相关性。只对一个变量进行逻辑回归,判断斜率是否为1,或者切片是否为WOE
若一个分箱内只有违约或未违约时,可对woe公式进行修正如下:
代码:
3.3.2 IV
IV是衡量某一个变量的信息量,表示一个变量的预测能力。根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最大值,此时的分箱效果最好,需要注意的是当箱数增加时,IV变大。
代码:
3.4变量筛选
基于IV值的变量筛选,如下表所示根据IV值筛选变量。
基于线性相关性的变量筛选,当两变量间的相关系数大于阈值(0.6)时,剔除IV值较低的变量,或分箱严重不均衡的变量。(需考虑多重共线性)
代码:
4.构建逻辑回归模型
客户违约的概率表示为p,则正常的概率为1-p,根据Logistic Regression计算公式有:
转换得到:
是Logistic Regression中不同变量的系数,是截距,A,B为常数,为基础分值。
每个变量对应分配到的分数应为,其中为第i个变量的第 j个分箱的WOE值,为是0,1逻辑变量,当为1时表示变量 i取第 j个分箱。
代码:
参考:
玩转逻辑回归之金融评分卡模型
风控模型—WOE与IV指标的深入理解应用