自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【学习笔记】解剖学与文本提示在多器官和肿瘤分割的应用 CAT

本文提出CAT模型,创新性地协调解剖结构视觉提示与医学文本提示,用于多器官和肿瘤的医学图像分割。针对现有方法难以处理肿瘤形态多变的问题,CAT通过3D裁剪图像提取解剖提示,结合GPT-4生成的医学文本提示,构建双提示机制。模型采用ShareRefiner优化分割与提示查询,并设计注意力指导层实现模态融合。在10个公共CT数据集上的实验表明,CAT显著提升了分割性能,特别是在不同癌症分期的肿瘤分割任务中展现出优异泛化能力。该方法为医学图像分析提供了多模态提示协同的新思路。

2025-07-15 11:49:49 569

原创 【学习笔记】使用多模态语言模型生成图像Generating Images with Multimodal Language Models

我们提出了一种方法,通过在它们的嵌入空间之间进行映射,将冻结的纯文本大型语言模型 (LLM) 与预先训练的图像编码器和解码器模型融合在一起。我们的模型展示了一套广泛的多模态功能:图像检索、新颖图像生成和多模态对话。我们的方法是第一种方法,能够对任意交错的图像和文本输入进行调节,以生成连贯的图像(和文本)输出。为了在图像生成方面实现强大的性能,我们提出了一个高效的映射网络,将 LLM 接地到现成的文本到图像生成模型。这个映射网络将文本的隐藏表示转换为视觉模型的嵌入空间。

2025-07-14 19:32:04 822

原创 【学习笔记】医学视觉表征学习Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation

直接从成对的放射学报告中学习医学视觉表示已经成为表示学习中的一个新兴话题。然而,现有的医学图像-文本联合学习方法受到实例或局部监督分析的限制,忽略了疾病层面的语义对应。在本文中,作者提出了一种新的用于广义医学视觉表示学习的多粒度跨模态对齐(MGCA)框架,该框架通过利用医学图像和放射学报告之间在三个不同级别(即病理区域级别、实例级别和疾病级别)上自然表现出的语义对应关系。

2025-03-02 12:33:23 905

原创 【学习笔记】用于图像文本检索的交叉模态和单模态软标签对齐Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval

近年来,图像文本检索方法表现出了令人印象深刻的性能。模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像文本检索的准确性。为了应对这些挑战,作者提出了一种称为跨模态和单模态软标签对齐的新方法(CUSA)。该方法利用单模态预训练模型的力量为图像文本检索模型提供软标签监督信号。另外介绍了两种对齐的方法:交叉模态软标签对齐(CSA)和单模态软标签对齐(USA),用于克服假阴性和增强单模态样本之间的相似性识别。

2025-03-02 12:15:48 729

原创 【学习笔记】医学视觉表征Contrastive Learning of Medical Visual Representations from Paired Images and Text

学习医学图像(如X射线)的视觉表示是医学图像理解的核心,但由于缺乏人类注释,其进展受到阻碍。现有的工作通常依赖于从ImageNet预训练传递的微调权重,这是次优的,因为图像特征截然不同,或者从与医学图像配对的文本报告数据中提取基于规则的标签,这是不准确的,很难推广。同时,最近的几项研究显示,从自然图像中进行无监督对比学习取得了令人兴奋的结果,但我们发现这些方法在医学图像上收效甚微,因为它们具有很高的类间相似性。我们提出了ConVIRT。

2024-03-14 19:23:39 1925 1

原创 【学习笔记】CLIP代码解读

CLIP代码解读学习

2023-10-18 11:20:55 3091 1

原创 【学习笔记】分子3D构象生成的扩散模型GeoDiff: a Geometric Diffusion Model for Molecular Conformation Generation

图表示学习在从分子的各种任务中为分子建模取得了巨大成功,其中分子通常被表示为原子键图。然而,分子的一种更内在、更具信息性的表示是3D几何,也被称为构象,其中原子被表示为它们的笛卡尔坐标。如何预测稳定的分子构象仍然是一个具有挑战性的问题。基于分子动力学(MD)或马尔可夫链蒙特卡罗(MCMC)的传统方法在计算上非常昂贵,尤其是对于大分子。最近,机器学习方法取得了重大进展,特别是在深度生成模型方面。在本文中,我们提出了一种称为GEODIFF的模型,这是一种基于去噪扩散模型的原则性概率框架。

2023-09-04 18:52:44 1927 1

原创 【学习笔记】3D分子构象生成 Direct Molecular Conformation Generation

1 摘要  分子构象生成旨在生成分子中所有原子的三维坐标,是生物信息学和药理学中的一项重要任务。以前的方法通常首先预测分子的原子间距离、原子间距离的梯度或局部结构(如扭转角),然后重建其三维构象。如何在没有上述中间值的情况下直接生成构象还没有得到充分的探索。在这项工作中,我们提出了一种直接预测原子坐标的方法:(1)损失函数对坐标的旋转平移和对称原子的排列是不变的;(2) 新提出的模型自适应地聚合键和原子信息,并迭代地细化生成的构象的坐标。我们的方法在GEOM-QM9和GEOM Drugs数据集上获得了最佳

2023-09-04 18:51:45 1380 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除