- 博客(13)
- 收藏
- 关注
原创 BLIP3-o: 全开源多模态统一模型,先理解后生成,详细解读
BLIP3-o是一种统一的多模态模型,结合了自回归模型和扩散模型,旨在同时实现图像理解和生成。该模型采用CLIP编码器提取图像语义特征,并通过Diffusion Transformer生成图像。训练策略上,BLIP3-o采用顺序训练,先进行图像理解训练,再进行图像生成训练,以保留理解能力并开发生成能力。模型通过高质量指令调优数据集BLIP3o-60k进行优化,该数据集由GPT-4o生成,涵盖多种场景和对象。实验表明,CLIP+FlowMatching是最有效的设计选择,能够提高样本多样性和视觉质量。
2025-05-22 15:44:46
1090
原创 自回归图像编辑 EditAR: Unified Conditional Generation with Autoregressive Models
EditAR是一个创新的自回归框架,旨在统一处理多种条件图像生成任务,如图像编辑、深度到图像、边缘到图像和分割到图像。该框架基于Llamagen模型,后者是建立在Llama2架构上的文本到图像自回归模型。EditAR通过引入蒸馏损失来增强语义理解,并在多种图像处理和翻译任务上进行了联合训练,展示了其作为统一条件图像生成模型的潜力。实验结果表明,EditAR在纹理操作、对象替换、对象移除、局部编辑等任务上表现出色。
2025-05-20 16:36:47
1261
原创 自回归图像生成VAR NeurIPS2024 | Visual Autoregressive Modeling
Visual Autoregressive Modeling (VAR) 是一种创新的图像生成方法,通过“下一尺度预测”策略重新定义了自回归建模。传统方法通过下一个标记预测来生成图像,但存在数学前提违反、泛化能力受限、结构退化和效率低下等问题。VAR 通过将自回归单元从单个标记扩展到整个标记映射,解决了这些问题。它使用多尺度量化自动编码器将图像编码为多尺度离散标记映射,并通过块式因果注意掩码确保每个尺度只依赖于其前缀。VAR 的训练和推理过程显著提高了效率,生成复杂度从 O(n^6) 降低到 O(n^4)。
2025-05-16 21:34:07
1130
原创 ViViT: A Video Vision Transformer -- ICCV2021 视频transformer方法解读
本文探讨了如何将Transformer结构从图像处理迁移到视频处理中,以应对视频数据中的时序和空间特征计算需求。文章提出了一种纯变换器架构,用于视频分类,并开发了多个模型变量,这些变量在空间和时间维度上分解Transformer编码器的不同组件。这些分解对应于不同的时间和空间注意力模式。文章详细介绍了视频剪辑的嵌入方法,包括均匀帧采样和管状嵌入,并提出了多个基于Transformer的架构,如时空注意力、分解编码器、分解自注意力和分解点积注意力。
2025-05-13 15:56:49
716
原创 CVPRW2025 UniToken-生成理解统一模型 论文解读
本文介绍了UniToken,一种新型的统一视觉编码模型,旨在解决现有生成理解统一模型在视觉编码技术上的挑战。UniToken通过结合连续和离散的视觉标记,实现了对多模态理解和生成任务的无缝集成。文章详细描述了UniToken的结构设计、训练方案和实验细节,展示了其在多模态任务中的先进性能。通过两阶段训练流程,UniToken有效地协调了视觉理解和图像生成功能,并在实验中表现出与最先进技术相当甚至更好的性能。UniToken的成功为未来统一多模态建模的研究提供了坚实的基础。
2025-05-10 21:21:48
713
原创 生成理解统一模型:Transfusion
许多工作尝试结合这些方法,包括扩展语言模型以使用扩散模型作为工具,或者显式地通过将预先训练的扩散模型移植到语言模型上,或者可以量化连续模态并在离散标记上训练标准语言模型,以丢失信息为代价简化了模型的架构。去噪扩散概率模型(也称为DDPM或扩散模型)基于学习反转逐渐噪声添加过程的原理来操作,与通常使用离散标记(y)的语言模型不同,扩散模型在连续向量(x)上操作,这使得它们特别适合于涉及像图像这样的连续数据的任务。我们观察到,图像内的双向注意力是重要的,并将其替换为因果关系的注意力伤害文本到图像的生成。
2025-04-12 17:30:35
978
原创 DiT代码详细解析——Scalable Diffusion Models with Transformers
ICCV 2023 (Oral) DIT:Scalable Diffusion Models with Transformers,替换处理latent patches的U-Net backbone。本文作者发现,通过增加Transformer深度/宽度或增加输入令牌数量,具有较高Gflops的DiT始终具有较低的FID。除了具有良好的可扩展性外,最大的DiT-XL/2模型在条件类ImageNet 512×512和256×256基准测试中的表现优于所有先前的扩散模型,在后者上实现了2.27的最先进FID。
2025-04-08 16:07:57
1046
原创 ICCV2023-ControlNet 可控图像生成 详细论文阅读笔记 Stable Diffusion
ControlNet可以将空间条件控制添加到大型的预训练文生图扩散模型中。文生图对空间控制有限,仅通过文本提示精确地表达复杂的布局、姿势、形状和形式可能是困难的。本文希望通过让用户提供额外的图像来直接指定他们想要的图像组合,从而实现更细粒度的空间控制。
2025-04-03 23:01:42
1110
1
原创 prompt learning for novel class 论文整理-小样本可泛化提示学习
通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。特别是,对于任何新的分类任务,可以首先通过向文本编码器提供描述任务相关类别的句子来合成分类权重,然后与图像编码器生成的图像特征进行比较。对于预训练的视觉语言模型,文本输入(prompt)在下游数据集中起着关键作用。然而,识别正确的提示并不是一项简单的任务,它通常需要花费大量时间来调整单词——措辞上的微小变化可能会对性能产生巨大的影响。添加与任务相关的上下文可以带来显着的改进,调整句子结构可以带来进一步的改进。
2025-04-02 22:42:53
1034
原创 (CoOp)Learning to Prompt for Vision-Language Models
CLIP将图像及其文本描述放在一起,排除特征空间中不匹配的对(将图像和文本在公共特征空间中对齐)。 通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。CoOp——第一个将prompt learning应用于大视觉语言模型。自动化提示工程(prompt engineering)。CoOp旨在促进视觉语言模型在下游数据集中的适应和部署。CoOp 使用可学习向量(learnable context)对提示的上下文单词进行建模,这些向量可以使用随机值或预训练的单词嵌入进行初始化。
2024-07-07 11:27:11
736
原创 【论文阅读】人群计数(Crowd Couting)| RGBT-CC | Cross-Modal Collaborative Representation Learning
在这项工作中,我们发现结合光学和热信息可以极大地帮助识别行人。为了促进该领域的未来研究,我们引入了大规模 RGBT 人群计数 (RGBT-CC) benchmark,其中包含 2,030 对 RGB 热图像以及 138,389 个带注释的人。此外,为了促进多模态人群计数,我们提出了一个跨模态协作表示学习框架,该框架由多个特定模态分支、一个模态共享分支和一个信息聚合分发模块(IADM)组成,以充分捕获不同模态的互补信息。
2024-04-07 17:08:47
2300
1
原创 (EAEF)Explicit Attention-Enhanced Fusion for RGB-Thermal 人群计数(Corwd Counting )| RGBT | MultiModal
该框架由image encoder、thermal encoder和decoder组成。所提出的显式注意力增强融合(EAEF)应用于两个编码器之间,以融合多尺度的特征。图2展示了基于 ResNet 构建的语义分割网络。请注意,该框架自然会在不同的任务上使用不同的backbone。图2。
2024-04-05 16:29:01
1666
1
原创 【论文阅读笔记】人群计数(Crowd Counting)| 密集群体分析
在 PET 中,有两个要素至关重要:i)点查询四叉树的设计;ii)渐进式矩形窗口注意机制。前者自适应地生成查询点来解决密集人群预测,后者提高了效率。PET 的整体架构(图2)包括四个组件:a CNN backbone, an efficient encoder-decoder transformer, a point-query quadtree, and a prediction head。图2图 2:PET 的整体架构。我们首先使用CNN backbone来提取图像表示 F。
2024-04-02 14:39:59
3771
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人