数据流聚类与自动数据库创建及对象模型学习研究
数据流聚类实验
在数据流聚类的研究中,实验主要聚焦于两个关键方面,以此来评估所提出的两阶段框架的性能。
1. 实验设置
- 数据选择 :采用标准普尔(S&P)股票数据进行实验。收集了 476 只股票为期一年的历史数据集,选取每只股票长度为 1252 的最高价数据。
- 任务目标 :在用户指定的时间范围内挖掘股票的聚类结果。
- 评估指标 :使用平均簇内距离作为聚类结果的评估函数,公式如下:
[
IntDis(Cl) = \frac{\sum_{i=1}^{p} IntDis(Cl(w_i))}{p}
]
其中,
[
IntDis(Cl(w_i)) = \frac{\sum_{C_j(w_i)} \sum_{Sq(w_i) \in C_j(w_i)} dist(Sq(w_i) - C_j(w_i).center)}{n \times m}
]
(C_j(w_i).center) 是条目 (w_i) 中簇 (C_j) 的中心。在后续实验中,框架的平均簇内距离以对原始数据流运行 k - 均值聚类算法得到的结果的比率来衡量。为减少 k - 均值聚类算法初始化的影响,取 20 次实验结果的平均值。不失一般性,假设桶大小 (B_t = B_h = B)。
2. 敏感性分析
- 参数选择 :研究摘要层次结构的两个参数,