- 智能风控与反欺诈:体系、算法与实践
- 蔡主希
- 402字
- 2021-04-02 09:32:54
2.3.2 样本选取
确定了逾期定义之后,我们需要选取建模样本来拟合得到评分卡模型。对于建模样本的选取,如果距今时间较长,选取的客户样本特性可能与当前的新增客户差异较大,导致用学习到的模型预测当前客户效果不佳;如果距今时间较短,近期申请客户的贷后表现还不充分,也会使得模型在学习过程中误把潜在的逾期客户当作正常客户,导致总结出错误的客户特性。因而我们需要定义观察期和表现期,观察期为建模样本横跨的历史区间,表现期则为模型预测的时间长度,如图2-1所示。
图2-1 观察期和表现期
为了找到最合理的观察期和表现期,通常会利用账龄分析(Vintage Analysis)的方法,观察所有核准后的客户在每个账龄上的逾期表现,从而确定表现期的长度,如图2-2所示。
图2-2 某互联网金融平台账龄分析曲线
我们仍然以某互联网金融平台的逾期样本为例,观察不同账龄下逾期人数的变化,可以看到放款9个月后逾期人数的增长趋于平缓,说明9个月是账户的成熟期,可以作为该平台客户表现期的长度。