29、学习预测聚类规则:原理、实验与展望

学习预测聚类规则:原理、实验与展望

1. 搜索启发式:紧凑性

在规则搜索过程中,启发式方法用于评估不同规则,衡量单个规则的质量以及整个规则集的质量。传统的CN2算法以规则准确性作为启发式,准确性仅与目标属性相关。而在开发预测聚类规则时,除了准确性,还希望规则能覆盖紧凑的示例子集,就像聚类那样。

为实现这一目标,采用紧凑性作为启发式,即示例到其所在示例集原型的平均距离。紧凑性同时考虑描述性属性和目标属性,是各维度紧凑性的加权和,各维度紧凑性被归一化到0到1之间。目前使用通用权重τ来强调目标属性(τ = 1)或输入属性(τ = 0),一般目标属性应赋予更高权重,以引导搜索生成更准确的规则。

2. 加权覆盖算法

标准覆盖算法在每次迭代中会从训练集中移除被规则覆盖的示例,这可能导致后续规则构建在有偏差且覆盖度小的示例子集上。为克服这些问题,采用加权覆盖算法。当一个示例被新规则覆盖时,不将其从训练集移除,而是降低其权重。使用加法加权方案,示例被覆盖m次后的权重为$\frac{1}{1 + m}$。当示例被覆盖超过预定义次数(实验中为5次)时,将其从训练集完全移除。

3. 概率分类

原始CN2算法可生成有序或无序规则。对于有序规则(决策列表),分类过程简单,依次扫描规则,第一个触发的规则用于预测,若没有规则触发,则使用默认规则。对于无序规则,CN2收集所有触发规则的类分布并进行加权投票。同样采用这种概率分类方案,即使无序规则并非针对每个可能的类值单独生成。

4. 相关工作

预测建模和聚类通常被视为不同任务,很少有方法同时考虑两者。但也有观点认为它们有相似之处,促使了一些将预测和聚类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值