CatBoost与SHAP结合用于房价预测回归问题及其变量解释

共10个文件

jpg：8个

pdf：1个

docx：1个

需积分: 21 167 浏览量 2025-04-07 02:06:06 上传评论收藏 449KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

735720492938.zip （10个子文件）

735720492938.pdf 111KB

CatBoost-shap集成模型在回归问题中的应用及Python代码解析.docx 38KB

机器学习

2.jpg 102KB

6.jpg 42KB

1.jpg 68KB

5.jpg 38KB

3.jpg 34KB

7.jpg 26KB

9.jpg 28KB

4.jpg 32KB

CatBoost-shap集成模型在回归问题上的应用及变量解释分析

先扔个完整代码镇楼（波士顿房价预测实战）：

```python

from catboost import CatBoostRegressor, Pool

import shap

import pandas as pd

import matplotlib.pyplot as plt

# 加载数据

data = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Boston

Housing.csv')

X = data.iloc[:,:-1]

y = data.iloc[:,-1]

# 训练CatBoost

model = CatBoostRegressor(iterations=300,

depth=5,

learning_rate=0.1,

verbose=0)

cat_features = list(X.select_dtypes(include='object').columns)

model.fit(X, y, cat_features=cat_features)

# SHAP魔法开始

explainer = shap.TreeExplainer(model)

shap_values = explainer.shap_values(Pool(X, cat_features=cat_features))

# 特征重要性全景图

plt.figure(figsize=(10,6))

shap.summary_plot(shap_values, X, plot_type="bar")

plt.title('特征影响力排行榜')

plt.tight_layout()

# 单样本决策推演

sample_idx = 42

shap.force_plot(explainer.expected_value,

shap_values[sample_idx],

X.iloc[sample_idx],

matplotlib=True,

text_rotation=15)

```

跑完这段代码你会看到两张图——第一张是特征重要性排序，像游戏战力榜一样展示各个特征对房

价的影响力；第二张是单样本预测的"决策推演"，像拆解俄罗斯套娃一样展示每个特征如何影响最终预测

值。

这里有个骚操作：`cat_features`参数自动处理类别型变量，连one-hot都不用做。比如数据里如果

有房屋类型（别墅/公寓）这种字符串特征，CatBoost自己就能消化，比XGBoost省事得多。

SHAP值分析时注意这个细节：

```python

Pool(X, cat_features=cat_features) # 必须用Pool对象传递类别特征信息

```

如果直接传DataFrame，模型会忘记哪些是类别特征，导致SHAP解释出现偏差。这个坑我帮你们踩过

了，记得用Pool封装数据。

看特征重要性图时，重点关注颜色深浅——红色表示特征值大，蓝色表示特征值小。比如'rm'（房间数

）特征，当柱子偏红时说明房间多的房子预测价更高，符合常识。

当看到单样本force_plot时，找那个把预测值往右推的最强特征。比如某个样本的'ptratio'（师生

比）特别低（教育资源好），SHAP值就会用红色长箭头把预测价顶上去，比看枯燥的特征权重直观多了。

先扔个能跑的CatBoost回归模板上来，带数据集和SHAP解释的那种。咱们直接上代码，从导入数据

到模型训练一气呵成：

```python

from catboost import CatBoostRegressor, Pool

from sklearn.datasets import fetch_california_housing

import shap

# 加州房价数据集，自带特征名称好评

housing = fetch_california_housing()

X, y = housing.data, housing.target

feature_names = housing.feature_names

# CatBoost专属的数据格式处理

train_pool = Pool(X, y, feature_names=feature_names)

# 模型参数设置讲究：开GPU加速，depth别太深防过拟合

model = CatBoostRegressor(iterations=500,

learning_rate=0.05,

depth=6,

task_type="GPU",

verbose=100)

model.fit(train_pool)

```

跑完能看到训练过程的实时loss下降，GPU加速下500轮迭代大概半分钟完事。注意这里verbose=10

0参数让每100次迭代才输出日志，避免控制台刷屏。

接下来上SHAP重头戏。很多教程里SHAP分析要跑半小时，咱们用CatBoost自带的快速SHAP实现：

```python

# 计算SHAP值时抽样1000条数据提速

explainer = shap.Explainer(model)

shap_values = explainer(train_pool[:1000])

# 特征全局重要性可视化

shap.plots.beeswarm(shap_values, max_display=10)

```

这个蜜蜂图一出来就能看到MedianIncome（收入中位数）这个特征在疯狂左右预测结果。颜色代表

特征值高低，红色高收入区域明显对房价预测起正向作用。

想看具体特征如何影响预测，上依赖图：

```python

shap.plots.scatter(shap_values[:, "MedInc"],

color=shap_values[:,"AveOccup"])

评论收藏

内容反馈

JYoOfokDc

粉丝: 0

CatBoost与SHAP结合用于房价预测回归问题及其变量解释

CatBoost-shap集成模型在回归问题中的Python数据分析与解释 · SHAP

"CatBoost-shap集成模型在回归问题中的应用：基于Python代码的数据分析实践",CatBoost-shap集成模型中的一种，本项目用在了回归问题上，并对模型和变量采用shap进行解释分析

CatBoost-shap集成模型：分类任务的解释与可视化Python代码实现，自带数据集，即插即用，全部图形直观展现,CatBoost-shap集成模型用于分类任务，对模型和变量用shap进行解释

CatBoost-shap集成模型在回归问题中的Python数据分析与解释

数据科学中CatBoost-shap集成模型的Python实现及其应用

CatBoost-SHAP集成模型在分类任务中的应用与解释：Python代码实现及可视化

机器学习中CatBoost-SHAP集成模型在分类任务的应用与解释

【深度学习与解释性AI】MATLAB实现基于DNN-SHAP深度神经网络（DNN）结合SHAP值方法（SHAP）进行多变量回归预测的详细项目实例（含模型描述及部分示例代码）

MATLAB实现基于ELM-SHAP极限学习机（ELM）结合SHAP值方法（SHAP）进行多变量回归预测的详细项目实例（含完整的程序，GUI设计和代码详解）

机器学习MATLAB实现基于ELM-SHAP极限学习机（ELM）结合SHAP值方法（SHAP）进行多变量回归预测的详细项目实例（含模型描述及部分示例代码）

【深度学习与解释性技术】MATLAB实现基于BiLSTM-SHAP双向长短期记忆网络（BiLSTM）结合SHAP值方法（SHAP）进行多变量回归预测的详细项目实例（含模型描述及部分示例代码）

机器学习模型案例与SHAP解释性分析：涵盖类别与数值预测，CatBoost、XGBoost等六大模型深度剖析及SHAP对比分析,机器学习模型案例解析：涵盖类别预测与数值预测，使用shap分析强化模型解

机器学习模型案例与SHAP解释性分析：涵盖类别与数值预测，CatBoost、XGBoost等六大模型深度解析及SHAP分析比较,shap分析代码案例，多个机器学习模型+shap解释性分析的案例，做好的

基于TCN与Shap的时间序列预测及多变量回归分析

基于TCN与SHAP的时间序列预测及多变量回归模型构建与应用

【深度学习与可解释性】MATLAB实现基于LSTM-SHAP长短期记忆网络（LSTM）结合SHAP值方法（SHAP）进行多变量回归预测的详细项目实例（含完整的程序，GUI设计和代码详解）

机器学习中SVC与SHAP结合实现多分类问题的解释分析

Python机器学习模型综合探索：从XGBoost与CatBoost到随机森林树模型与任意模型 - SHAP图绘制和VIF应用分析 ,Python Xgboost Catboost随机森林 树模型 任

siriyang_catboost_baseline_CATBoost_机器学习_企业非法集资风险预测_

Shap解释Transformer多分类模型，并且基于shap库对transformer模型（pytorch搭建）进行解释，绘制变量重要性汇总图、自变量重要性、瀑布图、热图等等 因为是分类模型，所以

基于XGBoost和SHAP的急性肾损伤可解释预测模型.docx

"利用LightGBM与shap集成模型进行回归任务：Python代码实践与自带数据集的直接运行体验",LightGBM-shap集成模型，回归任务，Python代码 方法本身没有啥可以解释 自带数据

基于PyTorch的Transformer回归模型及其Shap解释与可视化 - PyTorch v1.2

机器学习模型解释性分析：基于SHAP的类别与数值预测案例研究

Xgboost-Shap模型解释分析：分类与回归的机器学习模型可视化与解释工具,Xgboost-shap模型解释分析，Xgboost有分类器和回归器两种，shap用于对各种特征重要性可视化，用于对机器

RedHat本地yum源配置及国内镜像源配置.docx

模拟混合信号IC设计与仿真——两级全差分运算放大器的设计（详细的参数推导）

CANoe调用DLL库解锁27服务源码工程及CDD制作详解 DLL CANoe调用DLL库解锁27服务源码工程及CDD制作指南

基于STM32F103的多摩川绝对值磁编码器通讯方案：原理图、PCB设计与源码实践手册

jdk-8u241-linux-x64.tar.gz

可变分区式内存管理的模拟系统(最先适应算法)

stm32usart串口通信HAL库

最新资源

Python机器学习模型综合探索：从XGBoost与CatBoost到随机森林树模型与任意模型 - SHAP图绘制和VIF应用分析 ,Python Xgboost Catboost随机森林树模型任

Shap解释Transformer多分类模型，并且基于shap库对transformer模型（pytorch搭建）进行解释，绘制变量重要性汇总图、自变量重要性、瀑布图、热图等等因为是分类模型，所以

"利用LightGBM与shap集成模型进行回归任务：Python代码实践与自带数据集的直接运行体验",LightGBM-shap集成模型，回归任务，Python代码方法本身没有啥可以解释自带数据