CVPR2025｜我们的脑信号，真的能忠实还原看到的画面吗？

最新推荐文章于 2025-07-01 18:11:14 发布

脑机接口社区

最新推荐文章于 2025-07-01 18:11:14 发布

阅读量918

点赞数 19

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/zyb228/article/details/147755862

论文：Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior (Accepted by CVPR 2025)

Arxiv：https://arxiv.org/pdf/2503.04207

GitHub：https://github.com/HaitaoWuTJU/Uncertainty-aware-Blur-Prior

为了理解人类视觉刺激与大脑活动之间的机制，近年来，众多研究利用脑电图（EEG）、磁脑电图（MEG）和功能性磁共振成像（fMRI）等多种脑成像技术，测量大脑对视觉刺激的反应，并结合对比学习等深度学习方法，实现脑信号到视觉刺激的跨模态对齐、检索与重建。这些研究不仅有助于揭示大脑如何处理视觉信息的复杂过程，还为神经科学、认知科学和人工智能领域提供了宝贵的洞察。通过深入理解大脑与外界视觉刺激的关系，研究人员能够设计更精确的神经解码模型，推动脑机接口（BCI）技术的发展，并为相关疾病的早期诊断与治疗提供潜在的应用方案。

尽管人类具备强大的感知与认知能力，但受限于注意力资源、视觉记忆容量等因素，当外部视觉刺激转化为脑信号时，部分信息不可避免地丢失，特别是那些高频细节。我们将这种由系统性加工处理造成的信息差距，称为 System GAP。与此同时，认知和感知的动态性，以及技术采集噪声等因素，进一步加剧了信号与原始视觉刺激之间的差距，我们称之为 Random GAP。这些因素共同导致了脑信号和视觉刺激的信息量不一致和模态差异，从而增加了图像与脑信号对齐的难度，影响模型泛化性能。

如上图所示，快速序列视觉呈现范式（Rapid Serial Visual Presentation，RSVP）是一种典型的视觉-脑信号样本对采集范式。在实验过程中，呈现在被试者视野中的并非完整、清晰的原始图像。由于人类视觉系统的焦距特性，被试者通常只能聚焦于视觉场景中的某一局部区域，形成一个清晰的中心焦点，而其他区域则呈现出不同程度的模糊。

这一现象引发了我们的思考：能否利用模拟人类视觉聚焦机制的图像（即焦点清晰、边缘模糊的图像）来替代原始图像，以实现与脑信号的更精准对齐？

此外，在实验过程中，尽管被试者主要集中注意力于视觉中心，但由于注意力焦点存在一定的随机波动，以及不可避免地引发高阶认知联想，以及叠加技术采集噪声。这些因素进一步加剧了脑信号与原始视觉刺激之间的差异，如下图所示，图a展示了对于同一视觉刺激80个不同trial下的脑信号，图b展示了两个刺激各自80个trial下的脑信号，图c展示了不同受试者trial的变异性分布，图d展示了10个受试者的脑信号聚类结果，这些展示了EEG在实验过程中的动态性。

那么我们能否通过动态建模这种随机性，避免直接的模态对齐，而是通过感知模态差距，以实现动态的脑-视觉对齐？一个直观的例子是实验时走神的样本对，若直接进行语义对齐，将会影响模型的泛化性能。

01

方法

为了解决以上两个GAPs，即System GAP和Random GAP，我们提出了一种基于不确定性感知的模糊先验（Uncertainty-aware Blur Prior, UBP）策略。该策略通过感知成对样本之间的匹配程度，动态调整图像刺激的模糊程度，有选择性地去除图像中的高频细节，从而降低图像的模态信息量。通过这种方式，缓解了脑信号与视觉刺激之间的信息量不一致问题，提升了模态对齐的鲁棒性。

不确定性感知：由于缺乏明确的监督标签，随机差距建模面临较大挑战。为了解决这一问题，我们采用了计算置信区间的方式。在每一次inter中，我们通过计算每个图像-脑信号样本对的语义相似度，并根据其在整体训练集中样本对分布中的位置，从而实现样本语义匹配程度的感知。

模糊先验：基于不确定性感知的结果，即估计的图像-脑信号样本对的语义相关性，从而施加动态的高斯模糊，缓解不同模态的信息差距，以更好的实现视觉-脑信号信息的对齐。

其中，r是模糊半径，代表了模糊的程度，s代表图像-脑信号样本对的余弦相似度。UBP的整体算法流程如下所示，其中表示经过模糊处理后的图像，第九行描述了迭代过程中样本模糊程度的动态更新：

02

实验

我们在 THING-EEG 和 THINGS-MEG 数据集上进行了脑信号到图像的检索实验，通过为图像刺激引入模糊先验，在 intra-subject 设置下，我们的方法取得了 50.9% 的 Top-1 准确率和 79.7% 的 Top-5 准确率，显著超越了现有同类方法，证明了UBP方法的有效性。下图展示了 THING-EEG 200-way 检索结果：

此外，我们还进行了消融实验，证明了多种corrupt方法（高斯噪声，低分辩率，均匀模糊，焦距模糊）对于脑信号-图像的跨模态检索任务的有效性：

03

总结

在本研究中，我们提出了不确定性感知模糊先验（UBP）方法，旨在减缓视觉神经解码中 System GAP 和 Random GAP 导致的信息损失。实验结果表明，UBP在多个数据集上显著优于现有最先进方法。在 THING-EEG 数据集上，UBP实现了 Top-1 准确率提升 13.7% 和 Top-5 准确率提升 9.8%。本方法通过将不确定性感知和生物学先验引入视觉神经解码，为脑-机接口领域提供了新的研究视角。同时，UBP还为其他多模态任务提供了重要启示，尤其是在面对模态差距和信息不平衡的任务时。尽管本研究提出了一种简单而有效的建模方式，能够缓解脑信号和视觉刺激信息量不一致，实现更鲁棒性的vision-brain对齐，但依然不能完全弥补这些差距。未来，我们期望通过更复杂且合理的建模方法，进一步提升 vision-brain 跨模态对齐的效果。此外，现有的数据采集范式仍有优化空间，通过减少视觉刺激与实际感知之间的差距，可以进一步提升解码精度。例如，Apple Vision等先进视觉显示设备可能成为相较传统显示器更优的刺激呈现方式。

仅用于学术分享，若侵权请留言，即时删侵！