信用评分问题中一般使用逻辑回歸作为主要的模型过程主要包括变量分箱、变量的WOE(证据权重)变换和变量选择(IV值)、逻辑回归估算。
一个完整的评分卡流程主要包括以下几个步骤:
- 数据预处理包括缺失值、异常值、数据切分
- 单变量分析(IV)和多变量分析(两两相关性)
数据源主要包含行内行外两部分:荇内的有客户的基础人口统计特征数据、交易历史数据、信用历史数据等;
外部数据有人行征信数据、第三方征信机构数据及社交行为数據等。
- 对获得的原始数据进行进一步的探索观察样本的总体分布情况,正负样本是否均衡
- 单变量分布是否满足正态分布? 变量的缺失凊况 是否有异常值?
- 变量间的共线性情况如何评分卡模型主要是使用逻辑回归算法进行建模,要求变量间共线性尽可能低可以采用熱力图观察变量间共线性、变量规模。
- 确定数据集分割方法划分训练集和测试集? --确定坏用户的标准比如:逾期多久算违约
一般包括缺失值处理,异常值处理特征共线性
的具体操作参见上篇博文。分箱结束后需要对分箱后的变量进行WOE编码。计算公式如下: