论文:Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior (Accepted by CVPR 2025)
Arxiv:https://arxiv.org/pdf/2503.04207
GitHub:https://github.com/HaitaoWuTJU/Uncertainty-aware-Blur-Prior
为了理解人类视觉刺激与大脑活动之间的机制,近年来,众多研究利用脑电图(EEG)、磁脑电图(MEG)和功能性磁共振成像(fMRI)等多种脑成像技术,测量大脑对视觉刺激的反应,并结合对比学习等深度学习方法,实现脑信号到视觉刺激的跨模态对齐、检索与重建。这些研究不仅有助于揭示大脑如何处理视觉信息的复杂过程,还为神经科学、认知科学和人工智能领域提供了宝贵的洞察。通过深入理解大脑与外界视觉刺激的关系,研究人员能够设计更精确的神经解码模型,推动脑机接口(BCI)技术的发展,并为相关疾病的早期诊断与治疗提供潜在的应用方案。
尽管人类具备强大的感知与认知能力,但受限于注意力资源、视觉记忆容量等因素,当外部视觉刺激转化为脑信号时,部分信息不可避免地丢失,特别是那些高频细节。我们将这种由系统性加工处理造成的信息差距,称为 System GAP。与此同时,认知和感知的动态性,以及技术采集噪声等因素,进一步加剧了信号与原始视觉刺激之间的差距,我们称之为 Random GAP。这些因素共同导致了脑信号和视觉刺激的信息量不一致和模态差异,从而增加了图像与脑信号对齐的难度,影响模型泛化性能。
如上图所示,快速序列视觉呈现范式(Rapid Serial Visual Presentation,RSVP)是一种典型的视觉-脑信号样本对采集范式。在实验过程中,呈现在被试者视野中的并非完整、清晰的原始图像。由于人类视觉系统的焦距特性,被试者通常只能聚焦于视觉场景中的某一局部区域,形成一个清晰的中心焦点,而其他区域则呈现出不同程度的模糊。
这一现象引发了我们的思考:能否利用模拟人类视觉聚焦机制的图像(即焦点清晰、边缘模糊的图像)来替代原始图像,以实现与脑信号的更精准对齐?
此外,在实验过程中,尽管被试者主要集中注意力于视觉中心,但由于注意力焦点存在一定的随机波动,以及不可避免地引发高阶认知联想,以及叠加技术采集噪声。这些因素进一步加剧了脑信号与原始视觉刺激之间的差异,如下图所示,图a展示了对于同一视觉刺激80个不同trial下的脑信号,图b展示了两个刺激各自80个trial下的脑信号,图c展示了不同受试者trial的变异性分布,图d展示了10个受试者的脑信号聚类结果,这些展示了EEG在实验过程中的动态性。
那么我们能否通过动态建模这种随机性,避免直接的模态对齐,而是通过感知模态差距,以实现动态的脑-视觉对齐?一个直观的例子是实验时走神的样本对,若直接进行语义对齐,将会影响模型的泛化性能。
01
方法
为了解决以上两个GAPs,即System GAP和Random GAP,我们提出了一种基于不确定性感知的模糊先验(Uncertainty-aware Blur Prior, UBP)策略。该策略通过感知成对样本之间的匹配程度,动态调整图像刺激的模糊程度,有选择性地去除图像中的高频细节,从而降低图像的模态信息量。通过这种方式,缓解了脑信号与视觉刺激之间的信息量不一致问题,提升了模态对齐的鲁棒性。
不确定性感知:由于缺乏明确的监督标签,随机差距建模面临较大挑战。为了解决这一问题,我们采用了计算 置信区间 的方式。在每一次inter中,我们通过计算每个图像-脑信号样本对的语义相似度,并根据其在整体训练集中样本对分布中的位置,从而实现样本语义匹配程度的感知。
模糊先验:基于不确定性感知的结果,即估计的图像-脑信号样本对的语义相关性,从而施加动态的高斯模糊,缓解不同模态的信息差距,以更好的实现视觉-脑信号信息的对齐。
其中,r是模糊半径,代表了模糊的程度,s代表图像-脑信号样本对的余弦相似度。UBP的整体算法流程如下所示,其中 表示经过模糊处理后的图像,第九行描述了迭代过程中样本模糊程度 的动态更新:
02
实验
我们在 THING-EEG 和 THINGS-MEG 数据集上进行了脑信号到图像的检索实验,通过为图像刺激引入模糊先验,在 intra-subject 设置下,我们的方法取得了 50.9% 的 Top-1 准确率和 79.7% 的 Top-5 准确率,显著超越了现有同类方法,证明了UBP方法的有效性。下图展示了 THING-EEG 200-way 检索结果:
此外,我们还进行了消融实验,证明了多种corrupt方法(高斯噪声,低分辩率,均匀模糊,焦距模糊)对于脑信号-图像的跨模态检索任务的有效性:
03
总结
在本研究中,我们提出了 不确定性感知模糊先验(UBP) 方法,旨在减缓视觉神经解码中 System GAP 和 Random GAP 导致的信息损失。实验结果表明,UBP在多个数据集上显著优于现有最先进方法。在 THING-EEG 数据集上,UBP实现了 Top-1 准确率提升 13.7% 和 Top-5 准确率提升 9.8%。本方法通过将不确定性感知和生物学先验引入视觉神经解码,为脑-机接口领域提供了新的研究视角。同时,UBP还为其他多模态任务提供了重要启示,尤其是在面对模态差距和信息不平衡的任务时。 尽管本研究提出了一种简单而有效的建模方式,能够缓解脑信号和视觉刺激信息量不一致,实现更鲁棒性的vision-brain对齐,但依然不能完全弥补这些差距。未来,我们期望通过更复杂且合理的建模方法,进一步提升 vision-brain 跨模态对齐的效果。此外,现有的数据采集范式仍有优化空间,通过减少视觉刺激与实际感知之间的差距,可以进一步提升解码精度。例如,Apple Vision等先进视觉显示设备可能成为相较传统显示器更优的刺激呈现方式。
仅用于学术分享,若侵权请留言,即时删侵!
加入社群
欢迎加入脑机接口社区交流群,
探讨脑机接口领域话题,实时跟踪脑机接口前沿。
加微信群:
添加微信:RoseBCI【备注:姓名+行业/专业】。
加QQ群:913607986
欢迎来稿
1.欢迎来稿。投稿咨询,请联系微信:RoseBCI
点击投稿:脑机接口社区学术新闻投稿指南
2.加入社区成为兼职创作者,请联系微信:RoseBCI
一键三连「分享」、「点赞」和「在看」
不错过每一条脑机前沿进展