比赛链接如下:https://www.kaggle.com/competitions/home-credit-default-risk/overview
该比赛是Home Credit公司拿出他们公司的实际问题设置题目,传统的金融机构需要客户有良好且连续的信用卡使用记录才给贷款,Home Credit想用科技的方法解决这个问题,找到那些有实际还款能力但是被传统金融机构拒绝的客户。
本赛题是要预测客户是否会违约,违约的客户会给公司带来实际的经济损失,因为我们要尽量的避免给这部分客户放贷。违约一般分两部分,一个是无还款能力、一个是无还款意愿。当然也有既无还款能力又无还款意愿的人,在这里我们认为无还款能力导致的欠款都是由于无还款能力。
1、数据探查
1.1 application_train/test
训练集30.75万(SK_ID_CURR是主键,其中违约人数是24825,占比8.07%),测试集4.87万,每个训练集&测试集都行都对应一个贷款申请,训练测试的比例是6.31:1。
训练集&测试集的特征及其含义如下:
特征类别 | 特征名 | 特征含义 | 特征类型 |
---|---|---|---|
name_contract_type | 合同类型是现金还是循环贷 | 枚举值 | |
code_gender | 客户性别 | 枚举值 | |
flag_own_car | 客户是否有汽车 | 布尔 | |
flag_own_realty | 客户是否有房产或公寓 | 布尔 | |
cnt_children | 客户的孩子数量 | 数值 | |
amt_income_total | 客户的总收入 | 数值 | |
amt_credit | 客户的贷款信贷额度 | 数值 | |
amt_annuity | 每年要还的贷款额度 | 数值 | |
amt_goods_price | 对于消费贷来说,这个字段是要买的商品价格,从数据看每个贷款都对应某个商品,难道业务全部是消费贷吗 | 数值 | |
name_type_suite | 办理贷款的时候是谁跟着一起来的:孩子、家人、配偶、自己、… | 枚举值 | |
name_income_type | 收入来源:企业家、打工人、政府职员、养老金 | 枚举值 | |
name_education_type | 最高学历 | 枚举值 | |
name_family_status | 家庭状态:已婚、民事婚姻、单身、离婚、丧偶 | 枚举值 | |
name_house_type | 住房状态:租房、和父母住等 | 枚举值 | |
region_population_relative | 数字越大代表客户住的地方人口越密集 | 数值 | |
days_birth | 出生到现在的天数 | 数值 | |
days_employed | 从事当前工作多少天了,365243是异常数据,要剔除 | 数值 | |
days_registration | 多少天之前注册的 | 数值 | |
days_id_publish | 多少天之前修改了身 |