Sklearn 机器学习异常值检测孤立深林可视化异常点

Thomas Kant

已于 2025-08-14 09:30:45 修改

阅读量1.2k

点赞数 32

CC 4.0 BY-SA版权

分类专栏： # Sklearn 机器学习文章标签：机器学习 sklearn 人工智能

于 2025-08-14 09:00:00 首次发布

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖

在这里插入图片描述

在这里插入图片描述

Sklearn 机器学习异常值检测：孤立森林可视化异常点实战

在实际机器学习项目中，数据集往往会包含异常点（Outliers），这些异常点可能是由于测量错误、数据录入问题，或者确实存在的罕见情况。
如果不处理，它们可能严重影响模型性能。

本篇文章将带你使用 Sklearn 的孤立森林（Isolation Forest）算法 进行异常点检测，并通过 可视化方式标记异常点，让检测结果一目了然。

孤立森林是一种基于随机切分思想的异常检测算法，由多棵**孤立树（Isolation Trees）**组成。
它的基本原理是：

优点：

缺点：

参数名	说明
`n_estimators`	森林中的孤立树数量，数量越多模型越稳定，但计算时间增加
`max_samples`	每棵孤立树训练的样本数量，通常取 `"auto"` 或固定值
`contamination`	数据集中预估的异常比例（范围为 0 到 0.5，不包含 0.5），影响阈值计算
`max_features`	每棵树考虑的特征数，可用于加快训练
`random_state`	随机种子，保证实验可重复