基于有偏采样的集成异常值检测与分层贝叶斯模型消息长度近似

### 基于有偏采样的集成异常值检测与分层贝叶斯模型消息长度近似 #### 基于有偏采样的集成异常值检测在异常值检测领域，若所选异常值检测算法的时间复杂度为 \(O(n^2)\)，操作步骤的总时间复杂度为 \(O(cm^2n^2)\)。在算法的投票步骤中，每个子集的数据点预期数量会减少到 \(m′n^2\)，其中 \(m′\) 是算法步骤 2 后的预期采样率，且 \(m′ < m\)。最终，BSS 和 DBSS 相对于数据点数量的时间复杂度均为 \(O(n^2)\)，这与所选异常值检测算法和随机子采样（RS）算法的时间复杂度相似。不过，常数 \(c\)、\(m\) 以及 \(m′\) 的选择可能会影响时间复杂度。由于 BSS 和 DBSS 算法具有并行化集成计算的潜力，时间复杂度有望进一步降低至接近线性。 ##### 数据集在实验中，使用了两种类型的合成数据集（共 11 个不同的合成数据集）和 3 个来自 UCI 机器学习库的公开真实数据集。各数据集的属性总结如下表： | 数据集 | 数据点数量 | 维度 | 类别数量 | 异常值标签 | | --- | --- | --- | --- | --- | | Synthetic - D | 2000 | 可变(5:5:50) | 5 | 添加 5% 均匀噪声 | | Synthetic - M | 5000 | 10 | 5 | 马氏距离 | | UCI Covertype | 5743 | 10 | 7 | ‘4’ | | UCI Vowels | 1456 | 12 | 4 | ‘1’ | | UCI Protein | 5575 | 9 | 2 | 小于等于 0 | 各数据集异常值标签的分配方式如下： 1. **Synthetic - D**：生成 10 个该组合成数据集，通过将数据维度从 5 改变到 50，同时固定数据点数量和聚类数量，以评估方法的检测准确性和可扩展性。并且向所有 Synthetic - D 数据集添加 5% 的异常值。 2. **Synthetic - M**：使用不同类型的异常值来评估算法，通过每个数据点到其聚类中心的马氏距离来标记数据集。 3. **Covertype**：选择数值特征（即 1 到 9 和 44），选取数据点数量最少的标记子集并将其标记为异常值，异常值率为 2.23%。 4. **Protein**：选择第一个属性作为标签属性，值小于等于 0 的记录被视为异常值记录，异常值率为 2.55%。 5. **Vowels**：使用训练数据集中的记录，类别标签为 1、6、7 和 8，从类别 1 中随机选择 50 个数据点并将其标记为异常值，异常值率为 3.4%。 ##### 异常值检测准确性将 BSS 和 DBSS 算法与子采样（RS）算法进行比较，研究不同采样率对检测准确性的影响。改变采样率 \(m\) 从 0.1 到 0.9，同时考虑最近邻数量 \(k\) 对检测准确性的影响。改变 \(k\) 为 2、5 和 10，发现除 Covertype 数据集外，所有数据集在 \(k

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于有偏采样的集成异常值检测与分层贝叶斯模型消息长度近似

相关推荐

专栏目录

基于有偏采样的集成异常值检测与分层贝叶斯模型消息长度近似

相关推荐

基于贝叶斯线性回归的多变量时间序列预测及其MATLAB实现 异常检测

基于贝叶斯定理的糖尿病检测系统的设计与实现.pdf

基于贝叶斯更新模型的供应链风险策略研究-楼心怡

变分自编码器（VAE）的数学原理：贝叶斯推断与变分近似，深入理解生成式模型的数学基础

理解复杂数据集的结构：贝叶斯层次模型

【R语言贝叶斯混合效应模型】：MCMC教程与评估方法

贝叶斯视角下的逻辑回归：概率推断与模型比较

【分层高斯混合模型揭秘】：理论基础及其实现步骤，一步到位掌握模型构建

【贝叶斯网络的应用】应用中的挑战与贝叶斯网络的潜力

线性代数、数值技术与贝叶斯建模推理

使用自组织映射（SOM）聚类算法的TSP的Matlab和Python实现_Matlab and Python imple

专栏目录

最新推荐

Rust开发实战：从命令行到Web应用

Rust模块系统与JSON解析：提升代码组织与性能

Rust应用中的日志记录与调试

Rust编程：模块与路径的使用指南

Rust项目构建与部署全解析

React应用性能优化与测试指南

iOS开发中的面部识别与机器学习应用

并发编程中的锁与条件变量优化

Rust数据处理：HashMaps、迭代器与高阶函数的高效运用

AWS无服务器服务深度解析与实操指南

基于贝叶斯线性回归的多变量时间序列预测及其MATLAB实现异常检测