金融风控-贷款违约预测 -- task04

最新推荐文章于 2022-03-02 21:29:20 发布

qq_47506661

最新推荐文章于 2022-03-02 21:29:20 发布

阅读量184

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习建模比赛文章标签：机器学习 python

本文链接：https://blog.csdn.net/qq_47506661/article/details/108785744

机器学习建模比赛专栏收录该内容

3 篇文章

订阅专栏

博主分享了在金融风控领域进行贷款违约预测建模的经验，遇到计算量大及模型过拟合的问题。使用随机森林模型，但ROC_AUC达到1.0，怀疑可能过拟合。计划后续研究并优化模型，提高效率，目前只完成了随机森林模型的运行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

金融风控-贷款违约预测 – 建模调参

今天有点挫败感，遇到了个bug，暂时没有搞定。
大家都run的baseline，我一个人按照自己的理解做题，不知是好是坏，感觉不在一个频道上，不过，我这种自己做的，估计对整个流程的理解估计会比他们深吧。

今天只跑了一个模型，低估了模型计算的计算量，另外，发现了另外一个不好的点，使用pycharm，每次都需要重新运行，很浪费时间。

今天先贴下今天的战果吧，后面有结果再补充，组队学习完成了，但是学习还是没有完成的。

本来计算用下面几个模型run的，但是今天只完成了随机森林。

但是结果roc_auc 竟然是1.0~~~
太夸张了~

应该是过拟合了，后面再研究

万一是中了呢，我今天要提一次结果看下，哈哈

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_47506661

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据挖掘实践（金融风控-贷款违约预测）（三）：特征工程

南有芙蕖

09-22

3188

数据挖掘实践（金融风控-贷款违约预测）（三）：特征工程目录数据挖掘实践（金融风控-贷款违约预测）（三）：特征工程1.引言2.特征预处理2.1缺失值填充2.2时间格式处理2.3类别特征处理3.异常值处理3.1 检测异常的方法一：正态分布法3.2 检测异常的方法二：箱型图3.3异常值的处理方法4.数据分桶5.特征交互6.特征编码6.1 labelEncode 直接放入树模型中6.2 逻辑回归等模型要单独增加的特征工程7.特征选择7.1 Filter7.2 Wrapper （Recursive feature

数据挖掘实践（金融风控-贷款违约预测）Task1&2

weixin_44511231的博客

09-15

682

Link: 数据挖掘实践（金融风控）文章目录Task1 赛题理解 2天赛题要求赛题数据字段表评测标准提交结果个人理解思路比赛流程参考代码比赛指标Task2 EDA 3天Task3 特征工程 3天Task4 建模与调参 3天Task5 模型融合 3天 Task1 赛题理解 2天理解赛题数据和目标，清楚评分体系。完成赛题报名和数据下载，理解赛题的解题思路。赛题要求赛题数据赛题以预测用户贷款是否违约为任务，该数据来自某信贷平台的贷款记录。总数据量：超过120w，包含47列变量信息，其中15列为匿

参与评论您还未登录，请先登录后发表或查看评论

零基础入门金融风控之贷款违约预测挑战赛-task01

m0_47024418的博客

09-15

677

零基础入门金融风控之贷款违约预测挑战赛-task01 零基础入门金融风控之贷款违约预测挑战赛 1.赛题描述根据某信贷平台的贷款记录的数据，进行训练测试，预测用户贷款是否违约，得出用户违约的概率。在给出的数据中，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 2.数据信息 train.csv

零基础入门金融风控之贷款违约预测—模型融合

sosososoon的博客

09-27

1177

模型融合模型融合的方式：平均简单平均法加权平均法投票简单投票法加权投票法综合排序融合 log 融合 stacking 构建多层模型，并利用预测结果再拟合预测。 blending 选取部分数据预测训练得到预测结果作为新特征，带入剩下的数据中预测。 boosting / bagging stacking\blending stacking 将若干基学习器获得的预测结果，将预测结果作为新的训练集来训练一个学习器。首先直接用所有的训练数据对第一层多个模型进行 K 折交叉验

零基础入门数据挖掘之金融风控-贷款违约预测

u010288697的博客

09-15

443

天池-赛题理解-DataWhale 九月组队学习记录一、二、三、四、系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结新的改功能快捷合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、二、三、四、系列文章

数据挖掘项目：金融风控-贷款违约预测

evilAI9527的博客

03-02

6259

项目地址：team-learning-data-mining/FinancialRiskControl at master · datawhalechina/team-learning-data-mining · GitHub 本文主要根据自某信贷平台的贷款记录进行预测，以金融风控中的个人信贷为背景，要求根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，是一个典型的多分类的问题。本文完整的陈述了从数据探索到特征工程到构建模型的全过程。

阿里云天池学习赛【金融风控-贷款违约预测】task4

weixin_41598761的博客

09-24

1280

零基础入门金融风控-贷款违约预测TASK 44.建模以及调参4.1逻辑回归模型4.2决策树4.3集成方法4.3.1分类4.3.2 boosting4.3.3 bagging4.3.4 stacking4.4 数据集划分4.5 建模 4.建模以及调参 4.1逻辑回归模型 1.逻辑回归算法的名字里虽然带有“回归”二字，但实际上逻辑回归算法是用来解决分类问题的。简单来说，逻辑回归（Logistic Regression）是一种用于解决==二分类==（0 or 1)问题的机器学习方法，用于估计某种事物

零基础入门金融风控-贷款违约预测之TASK4_模型融合

weixin_46292496的博客

09-27

231

针对分类问题，在简单方法中常用到投票法（Voting）。在不改变模型的情况下，直接对各个不同的模型预测结果进行投票，sklearn库中的VotingClassifier是投票法的实现。投票法的输出有两种类型：一种是直接输出类标签，另外一种是输出类概率。使用前者进行投票为hard voting，使用后者进行分类叫做soft voting，通过voting参数进行控制。 from xgboost import XGBClassifier from sklearn.linear_model import Log

零基础入门金融风控-贷款违约预测之TASK1_赛题理解

weixin_46292496的博客

09-15

846

赛题以预测用户贷款是否违约为任务，根据借款人的数据信息预测其违约概率，提交结果为每个测试样本是1的概率。评价方法为AUC评估模型效果（越大越好）。赛题链接：https://tianchi.aliyun.com/competition/entrance/531830/information 1、数据概况数据包含47列变量信息，其中15列为匿名变量，总数据量超过120w，为了保证比赛的公平性，将从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、p

金融风控-贷款违约预测 -- task02

qq_47506661的博客

09-18

320

金融风控-贷款违约预测今天是task02的打卡时间点，作为社畜，时间着实紧张。EDA结果不是很好。但是也是作为一种记录，记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩，我觉得，我也是可以的，周末好好加油学习，你也是可以的。本章主要是进行数据可视化，探索可自变量与应变量之间的关系首先看了变量类型，里面共有5个类别型变量，其余都为数值型变量。但是看了其分布，感觉这些数值型变量中，还有一些是类别型变量。 1 ）贷款违约风险，及label Y变量“isDefault”，分布如下从这个比例来看

零基础入门金融风控-贷款违约预测-Task01

upon120的博客

09-15

1419

有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营。收获颇多。每天记录一些自己之前的知识盲点，需经常温习。一、赛题理解：该赛题是金融风控中关于贷款违约情况的预测。盲猜是个机器学习中监督学习的分类问题。从训练集和测试集的对比中可以得到标签label的字段。 1、首先观察训练集train.csv和testA.csv，将train.csv和testA.csv的shape分别打印出来，发现居然train.shape的列数比testA.shape...

大数据项目：贷款风险预测

zkrazyxszd的博客

03-06

1147

项目介绍： A、pandas 进行数据处理 1、读取数据 import pandas as pd pd.set_option('display.max_columns', None) load_data = pd.read_csv(r'C:\Users\lab-635\Desktop\A3C\shixizhunbei\PD\price_of _house\LoanStats3a1.csv'...

python数据分析实战之客户还款能力预测

恋恋风尘的博客

05-02

4656

文章目录1、明确需求和目的2、数据收集3、数据预处理3.1 数据整合3.1.1 加载相关库和数据集3.1.2 数据总体概览3.2 数据清洗3.2.1 多余列的删除3.2.2 确定数据集的标签3.2.3 缺失值的处理3.2.4 数据类型转换3.2.5 重复值处理4、模型训练4.1 使用逻辑回归训练4.2 使用KNN训练5、总结 1、明确需求和目的客户向P2P平台申请贷款时，平台会通过线上或线下的...

阿里天池金融风控-贷款违约预测xgboost回归

SwjtuPC的博客

10-10

2923

第一次尝试（使用xgboost回归）这里难度不是很大，可以参考XGBRegressor使用。我这里将预测的数据保存到文件中，方便之后的操作，不用每次操作都训练一次。 import pandas as pd from xgboost import XGBClassifier#做分类问题 from xgboost import XGBRegressor#做回归问题 df = pd.read_csv("/Users/apple/PycharmProjects/K-means/Datawhale/Result3.

预测贷款用户是否逾期-数据预处理

qq_34225469的博客

08-06

731

1、本项目为预测贷款用户是否逾期的数据预处理部分，主要包括特征处理、数据类型分析、数据类型转换以及缺失值处理。一、数据查看选择的IDE为pycharm,首先导入pandas库与numpy库，查看数据的大小，所包含的特征，每个特征的缺失值情况，需要转换数据类型的特征等。下面为具体的代码。 #导入numpy和pandas库 import numpy as np import pandas...

「机器学习」天池金融风控-贷款违约预测赛题分析

秀球Gang的学习小站

09-15

3057

天池金融风控-贷款违约预测赛题分析1. 赛题背景2. 赛题数据3. 评价指标4. 赛题流程5. 代码示例5.1 数据读取pandas5.2 分类指标评价计算示例6. 经验总结7. 拓展知识——评分卡 1. 赛题背景赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。比赛地址：https://tianchi.aliyu

数据挖掘实践（金融风控-贷款违约预测）（一）：赛题理解

南有芙蕖

09-14

4973

数据挖掘实践（金融风控-贷款违约预测）（一）：赛题理解目录数据挖掘实践（金融风控-贷款违约预测）（一）：赛题理解1 引言2 赛题介绍2.1 数据概况2.2 预测指标2.2.1 分类算法常见的评估指标2.2.2 金融风控预测类常见的评估指标3 实战4 总结【参考资料】 1 引言本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场——零基础入门金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷

零基础入门金融风控 Task2 数据分析

Rock_y的博客

09-16

1086

文章目录1 导入数据分析及可视化过程需要的库2 读取文件3 总体了解4 查看数据集中特征缺失值，唯一值等总结：5 查看特征的数值类型有哪些，对象类型有哪些总结：6 变量分布可视化根据y值不同可视化x某个特征的分布6 时间格式数据处理及查看7 掌握透视图可以让我们更好的了解数据8 用pandas_profiling生成数据报告总结此部分为零基础入门金融风控的 Task2 数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 零基础入门金融风控之

机器学习算法实践：金融风控-贷款违约预测（9.27日更新）

qq_34639027的博客

09-15

1138

机器学习算法实践：金融风控-贷款违约预测数据初识二级目录三级目录数据初识 1、基本数据、数据含义 id 为贷款清单分配的唯一信用证标识 loanAmnt 贷款金额 term 贷款期限（year） interestRate 贷款利率 installment 分期付款金额 grade 贷款等级 subGrade 贷款等级之子级 employmentTitle 就业职称 employmentLength 就业年限（年） homeOwnership 借款人在登记时提供的房屋所有权状况 annualIncome

金融风控-贷款违约预测