利用分层自组织映射进行股票市场数据聚类分析

# 利用分层自组织映射进行股票市场数据聚类分析 ## 1. 引言股票市场数据分析具有重要意义，一方面，提前了解股票走势模式能为投资者带来丰厚收益；另一方面，在金融领域，数据驱动的决策可与专家观点相互补充，数据挖掘已成为预测金融模式的有力工具。在金融领域，确定不同股票之间的关系是一个难题。传统方法要么简单假设股票相互独立，仅用时间序列对价格建模；要么假设所有股票相互依赖，构建复杂的全连接图，分析难度大。我们提出采用神经网络处理范式，创建基于树的模型来捕捉股票市场中不同商品之间的相关性。具体使用树基拓扑导向自组织映射（TTOSOM）算法，它能利用自组织映射（SOM）的特性，捕捉数据的随机和拓扑结构，且无需生成传统的SOM网格。 ## 2. 文献综述 ### 2.1 自组织映射（SOM） SOM是一种神经网络，通常通过（无）监督学习进行训练，能在低维空间中产生神经表示，并保留输入空间的拓扑特性。 SOM将d维空间中的n个输入样本信息，集中到m个神经元中。每个神经元有一个权重向量 $w = [w_1, w_2, ..., w_d]^t \in \mathbb{R}^d$ ，也称为“权重”“原型”或“码本”向量。训练时，同时调整这些权重值以表示数据的分布和结构。在每个训练步骤中，向网络输入样本 $x$ ，神经元竞争找出“获胜者”，即最佳匹配单元（BMU），表示为： \[s = s(x) = \arg \min_{c \in C} \|x - w_c\|\] 其中 $\|\cdot\|$ 为欧几里得范数。确定BMU后，根据更新规则将其向输入信号迁移： \[w(t + 1) = w_i(t) + h_{si}(t)[x(t) - w_i(t)]\] 其中 $h(t) = h(|c_i - c_j|; t)$ 是活动泡（BoA）核函数， $t$ 是时间变量， $h(t)$ 是依赖于两个神经元距离的递减函数。 SOM算法步骤总结如下： 1. 从 $X$ 中获取样本 $x$ 。 2. 找到获胜神经元，即BMU。 3. 确定靠近获胜者的神经元子集，即BoA。 4. 将最接近的神经元及其在BoA中的邻居向 $x$ 迁移。 5. 按预定计划修改学习因子和半径。然而，SOM存在一些缺点，如用户需预先指定晶格，可能需多次运行网络以获得合适配置；地图大小问题，神经元数量少可能导致数据表示不准确；还有结果图质量和收敛时间等问题。为此，研究人员提出了不同结构的SOM变体。 ### 2.2 树基拓扑导向自组织映射（TTOSOM） TTOSOM是一种树结构的SOM，旨在发现输入数据集 $X$ 的潜在分布，并从用户期望的角度感知其拓扑结构。它采用树结构拓扑，使用类似矢量量化（VQ）的策略调整码本向量。 TTOSOM的BoA定义与以往方法有两个主要不同：使用树结构和半监督学习范式。首先需递归定义用户自定义树，它考虑神经距离，即用户定义树中节点间的最小无权重连接数，且该距离与节点是否为叶子节点无关。与传统SOM一样，TTOSOM也需确定BMU，涉及特征空间中的距离。与节点间距离相关的是BoA，它是当前检查单元附近的节点子集，这些节点将向输入信号迁移。节点是否属于当前BoA取决于节点间的连接数，而非解空间中的距离（如欧几里得距离）。 TTOSOM的训练过程是将描述用户定义树的神经元定位在特征空间中，以捕捉数据点的分布和拓扑结构。训练步骤包括从数据集请求输入样本、定位BMU、计算当前BoA内的节点，并将这些神经元向输入信号迁移。 ## 3. 提出的方法在建模股票市场拓扑时，我们面临一个问题：是先使用SOM建模，再进行基于最大生成树（MST）的后处理，还是直接采用能捕捉底层系统结构的神经策略？我们认为TTOSOM是更优选择，原因如下： ### 3.1 拓扑学习能力以学习三角形分布为例，展示了三

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

利用分层自组织映射进行股票市场数据聚类分析

相关推荐

专栏目录

利用分层自组织映射进行股票市场数据聚类分析

相关推荐

二叉平衡树在物联网中的数据聚类分析.pptx

论文研究-基于多层自组织映射和主成分分析的入侵检测方法.pdf

MATLAB实现投影寻踪动态聚类评价(PPDC)及其分层分组迭代交替优化方法

GHSOM-CPP：C ++中不断增长的分层自组织映射（GHSOM）实现

聚类分析 (3).pdf

聚类分析 (3).docx

MRI肺部成像的分层K-means聚类-matlab 此代码执行MRI肺部成像分析的分层k-means聚类

1.rar_分层聚类_判别算法_向量 聚类_模式识别_线性判别

GHSOM-CPP：探索C++实现的分层自组织映射

使用Cluster进行生物信息学聚类分析

软件员工—竞业限制协议书范本.doc

专栏目录

最新推荐

Rust模块系统与JSON解析：提升代码组织与性能

Rust开发实战：从命令行到Web应用

Rust应用中的日志记录与调试

Rust编程：模块与路径的使用指南

iOS开发中的面部识别与机器学习应用

Rust项目构建与部署全解析

AWS无服务器服务深度解析与实操指南

Rust数据处理：HashMaps、迭代器与高阶函数的高效运用

并发编程中的锁与条件变量优化

React应用性能优化与测试指南

1.rar_分层聚类_判别算法_向量聚类_模式识别_线性判别