开发申请评分卡的第一步要做什么

最新推荐文章于 2025-02-14 00:17:55 发布

金科应用研院

最新推荐文章于 2025-02-14 00:17:55 发布

阅读量570

点赞数

CC 4.0 BY-SA版权

分类专栏：金融评分卡文章标签：数据分析评分卡建模 Python SAS

本文链接：https://blog.csdn.net/BiAnTi/article/details/82383128

金融评分卡专栏收录该内容

15 篇文章

订阅专栏

在开发信用申请评分卡之前，最基本面的工作就是梳理理解数据。不要自认为知道这些字段的中文意思、来自哪张数据表就可以了，还要尽可能的去了解这些数据是从生产库怎么生成的，也就是说这些可能用到的变量数据还原到业务中是怎样的衍生过程，当然如果你们是直接从生产库里挑选数据提炼到建模表上，那么恭喜你，可以花更多的时间去梳理整理数据了，建好的模型也会更稳定准确。

现在很多科技数据公司一味的去强调算法、大维度变量，但却忽略了业务数据的理解，做出来的模型自然也就与实际业务偏差很大，就算是ks为0.5以上也是很难实际落地。

变量业务理解梳理，尽管很繁琐，却尤为重要。

举个例子

对于现在很流行的现金贷业务，客户申请的三基本要素：姓名，身份证、手机号（不要傻傻认为申请时只要你三要素，这是个幌子，通过用户授信、SDK抓取，任何信息都可以拿到，毕竟隐私这种事说说就算了）。

对于一个客户填写了这三要素之后，业务生产库里就会存在name、idcard、phonenumber三个字段去存储每一个申请客户的数据。如果对于建模的你来说，没有权限看到生产库的数据，只有数据仓库给你使用，你从数仓里看到了sex、province、city、sex、Valid_period_of_ID_card等等。这些字段都是从生产库里衍生出来的，有些是业务逻辑需要，有些是报表需求。

就以身份证idcard为例，一个申请客户提供了idcard：440306199005113437，申请时点为2017.10.28，

18位身份证号码各位的含义:
1-2位省、自治区、直辖市代码；
3-4位地级市、盟、自治州代码；
5-6位县、县级市、区代码；
7-14位出生年月日，比如19670401代表1967年4月1日；
15-17位为顺序号，其中17位（倒数第二位）男为单数，女为双数；

根据身份证编码含义，我们就可以在在数仓里衍生出如下字段
这里写图片描述

小科普板块

对于Valid_period_of_ID_card这个变量的衍生，大家首先要知道身份证号的含义，还要去测算申请客户目前是第几代身份证，然后去了解关于身份证法对于身份证有效期的划分标准，最后根据客户申请时点去测算他目前的身份证还有多长的有效期。

Valid_period_of_ID_card这个衍生变量可以在策略规则和建模中使用，比如身份证有效期较短的客群通过历史数据分析发现在公司cash loan中大占比为骗贷客户，策略引擎里已经设置了强拒绝规则，那么我们在建模的时候，就要把身份证有效期超出相应规则界限的客群剔除掉，直接排除这部分数据进入评分卡模型的训练样本，可以很好的排除这部分客群对模型的干扰，提升模型的区分好坏能力。

回归正题

假如现阶段公司现金贷业务限定只给予年龄在20-35岁，非广东区域的客户进行放款，产品业务已经明确了各个维度的限制，那么我们在数据导入前，在了解了衍生变量的业务逻辑之后，很明确的知道这个申请客户是不可能进行贷款的，不满足业务要求的客群也是应该通过相关变量进行排除的，这就是我想跟大家聊的梳理理解数据的重要性。

理清数据的来源，也才能更方便的让我们脑洞大开地去创造变量！

一句话概要：数据建模评分卡，业务理解是第一

更多金融风控知识，请关注【金融科技应用学苑】公众号