Kaggle实践之《Home Credit Default Risk》的数据源理解

比赛链接如下:https://www.kaggle.com/competitions/home-credit-default-risk/overview
该比赛是Home Credit公司拿出他们公司的实际问题设置题目,传统的金融机构需要客户有良好且连续的信用卡使用记录才给贷款,Home Credit想用科技的方法解决这个问题,找到那些有实际还款能力但是被传统金融机构拒绝的客户。

本赛题是要预测客户是否会违约,违约的客户会给公司带来实际的经济损失,因为我们要尽量的避免给这部分客户放贷。违约一般分两部分,一个是无还款能力、一个是无还款意愿。当然也有既无还款能力又无还款意愿的人,在这里我们认为无还款能力导致的欠款都是由于无还款能力。

1、数据探查

1.1 application_train/test

训练集30.75万(SK_ID_CURR是主键,其中违约人数是24825,占比8.07%),测试集4.87万,每个训练集&测试集都行都对应一个贷款申请,训练测试的比例是6.31:1。
训练集&测试集的特征及其含义如下:

特征类别 特征名 特征含义 特征类型
name_contract_type 合同类型是现金还是循环贷 枚举值
code_gender 客户性别 枚举值
flag_own_car 客户是否有汽车 布尔
flag_own_realty 客户是否有房产或公寓 布尔
cnt_children 客户的孩子数量 数值
amt_income_total 客户的总收入 数值
amt_credit 客户的贷款信贷额度 数值
amt_annuity 每年要还的贷款额度 数值
amt_goods_price 对于消费贷来说,这个字段是要买的商品价格,从数据看每个贷款都对应某个商品,难道业务全部是消费贷吗 数值
name_type_suite 办理贷款的时候是谁跟着一起来的:孩子、家人、配偶、自己、… 枚举值
name_income_type 收入来源:企业家、打工人、政府职员、养老金 枚举值
name_education_type 最高学历 枚举值
name_family_status 家庭状态:已婚、民事婚姻、单身、离婚、丧偶 枚举值
name_house_type 住房状态:租房、和父母住等 枚举值
region_population_relative 数字越大代表客户住的地方人口越密集 数值
days_birth 出生到现在的天数 数值
days_employed 从事当前工作多少天了,365243是异常数据,要剔除 数值
days_registration 多少天之前注册的 数值
days_id_publish 多少天之前修改了身
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值