利用分层自组织映射进行股票市场数据聚类分析
立即解锁
发布时间: 2025-08-30 01:50:05 阅读量: 10 订阅数: 27 AIGC 

# 利用分层自组织映射进行股票市场数据聚类分析
## 1. 引言
股票市场数据分析具有重要意义,一方面,提前了解股票走势模式能为投资者带来丰厚收益;另一方面,在金融领域,数据驱动的决策可与专家观点相互补充,数据挖掘已成为预测金融模式的有力工具。
在金融领域,确定不同股票之间的关系是一个难题。传统方法要么简单假设股票相互独立,仅用时间序列对价格建模;要么假设所有股票相互依赖,构建复杂的全连接图,分析难度大。
我们提出采用神经网络处理范式,创建基于树的模型来捕捉股票市场中不同商品之间的相关性。具体使用树基拓扑导向自组织映射(TTOSOM)算法,它能利用自组织映射(SOM)的特性,捕捉数据的随机和拓扑结构,且无需生成传统的SOM网格。
## 2. 文献综述
### 2.1 自组织映射(SOM)
SOM是一种神经网络,通常通过(无)监督学习进行训练,能在低维空间中产生神经表示,并保留输入空间的拓扑特性。
SOM将d维空间中的n个输入样本信息,集中到m个神经元中。每个神经元有一个权重向量 $w = [w_1, w_2, ..., w_d]^t \in \mathbb{R}^d$ ,也称为“权重”“原型”或“码本”向量。训练时,同时调整这些权重值以表示数据的分布和结构。
在每个训练步骤中,向网络输入样本 $x$ ,神经元竞争找出“获胜者”,即最佳匹配单元(BMU),表示为:
\[s = s(x) = \arg \min_{c \in C} \|x - w_c\|\]
其中 $\|\cdot\|$ 为欧几里得范数。
确定BMU后,根据更新规则将其向输入信号迁移:
\[w(t + 1) = w_i(t) + h_{si}(t)[x(t) - w_i(t)]\]
其中 $h(t) = h(|c_i - c_j|; t)$ 是活动泡(BoA)核函数, $t$ 是时间变量, $h(t)$ 是依赖于两个神经元距离的递减函数。
SOM算法步骤总结如下:
1. 从 $X$ 中获取样本 $x$ 。
2. 找到获胜神经元,即BMU。
3. 确定靠近获胜者的神经元子集,即BoA。
4. 将最接近的神经元及其在BoA中的邻居向 $x$ 迁移。
5. 按预定计划修改学习因子和半径。
然而,SOM存在一些缺点,如用户需预先指定晶格,可能需多次运行网络以获得合适配置;地图大小问题,神经元数量少可能导致数据表示不准确;还有结果图质量和收敛时间等问题。为此,研究人员提出了不同结构的SOM变体。
### 2.2 树基拓扑导向自组织映射(TTOSOM)
TTOSOM是一种树结构的SOM,旨在发现输入数据集 $X$ 的潜在分布,并从用户期望的角度感知其拓扑结构。它采用树结构拓扑,使用类似矢量量化(VQ)的策略调整码本向量。
TTOSOM的BoA定义与以往方法有两个主要不同:使用树结构和半监督学习范式。首先需递归定义用户自定义树,它考虑神经距离,即用户定义树中节点间的最小无权重连接数,且该距离与节点是否为叶子节点无关。
与传统SOM一样,TTOSOM也需确定BMU,涉及特征空间中的距离。与节点间距离相关的是BoA,它是当前检查单元附近的节点子集,这些节点将向输入信号迁移。节点是否属于当前BoA取决于节点间的连接数,而非解空间中的距离(如欧几里得距离)。
TTOSOM的训练过程是将描述用户定义树的神经元定位在特征空间中,以捕捉数据点的分布和拓扑结构。训练步骤包括从数据集请求输入样本、定位BMU、计算当前BoA内的节点,并将这些神经元向输入信号迁移。
## 3. 提出的方法
在建模股票市场拓扑时,我们面临一个问题:是先使用SOM建模,再进行基于最大生成树(MST)的后处理,还是直接采用能捕捉底层系统结构的神经策略?我们认为TTOSOM是更优选择,原因如下:
### 3.1 拓扑学习能力
以学习三角形分布为例,展示了三
0
0
复制全文
相关推荐









