Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation 学习笔记

最新推荐文章于 2025-08-27 20:55:43 发布

原创

最新推荐文章于 2025-08-27 20:55:43 发布 · 841 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #学习 #笔记

Abstract

提出了一个semantic graph Transformer （SGT），目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临两个问题：1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。

具体来看，该模型包含了两个Transformer层：1. 提出了一个图嵌入层，来更好的利用图中边的信息。2. 提出了一个语义注入层，来利用文本标签和视觉对象知识。

Proposed Approach

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该模型分为两个模块Graph Embedding Layer（GEL）and Semantic Injection Layer（SIL）。

Node and Edge feature generation

输入是有instance label但没有category label的点，然后用pointnet进行特征提取，得到物体的特征。假设所有的物体之间都有边，因此边的特征由相连的两个物体的特征得到。

||表示拼接

Graph Embedding Layer

Multi-Head Edge-aware Self-Attention

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图可以看出有三个输入但是只有两个输出，三个输入分别是边的特征，两个节点的特征。输出分别是节点i的特征和新一轮的边的特征，其中使用 $V_i$

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

健身的程序猿

关注关注

25
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

NeurIPS 2023 | SGFormer: 仅使用一层全局注意力的简化图Transformer

Paper weekly

12-26

1510

设计针对图结构数据的 Transformer 模型（通常简称 graph Transformer）目前已成为了一个备受关注的研究方向。有别于传统图神经网络（简称 GNN）每层更新只能聚合邻居节点的信息，Transformer 通过全局注意力机制在每层更新中可以聚合图中所有其他节点的信息。这种设计可以有效避免 GNN 的过度挤压问题、改善对异质图的建模、缓解噪声/残缺/冗余连边对性能的影响 [1]。...

Few-shot 3D Point Cloud Semantic Segmentation 论文简记

碧落的博客

07-16

1738

已有的点云语义分割方法需要大量的标签，点云逐点标记是困难的，另外对新的类别较差的泛化性。因此本文提出一个显著感知的多-原型转化few-shot 分割方法。具体地，每个类可以表示为多个原型来建模复杂分布地点云数据。然后，设计一个标签传播方法，来探索标注的多原型和未标记点的亲和度，以及未标注点之间的亲和度。最后，显著感知的多尺度特征学习网络建模点之间的语义相关性和几何相关性。

参与评论您还未登录，请先登录后发表或查看评论

探索未来3D点云语义分割： Few-shot 3D Point Cloud Semantic Segmentation

gitblog_00009的博客

06-11

749

探索未来3D点云语义分割： Few-shot 3D Point Cloud Semantic Segmentation 项目地址:https://gitcode.com/gh_mirrors/at/attMPTI 在计算机视觉领域，3D点云语义分割一直是研究的热点，但现有的大多数方法依赖于大量标注数据，这在实际应用中往往难以获取且无法很好地泛化到未见过的新类别。为了解决这一难题，我们为您推荐一个创...

【Attention】（WACV2024）EGA边缘引导注意力模块----代码详解

weixin_59422604的博客

03-28

969

任务是在息肉分割领域，解决前景背景分割难的问题。使用多尺度边缘引导网络实现更好的分割效果。多尺度捕捉不同分辨率特征边缘细化特征提取于恢复，注意力机制聚焦关键区域。适用于伪装目标、阴影去除等任务。

Deep Edge-Aware Saliency Detection

01-03

显著性检测论文

Transformer综述(A Survey on Vision Transformer) 阅读学习笔记（二）-- transformer在计算机视觉领域的发展和应用

sazass的博客

03-10

7690

论文综述：文章主旨：在本文中，我们回顾了这些视觉Transformer模型，将它们分为不同的任务，并分析了它们的优缺点。我们探讨的主要类别包括主干网络、高/中级视觉、低级视觉和视频处理。我们还包括有效的Transformer方法，用于将Transformer推进基于设备的实际应用。此外，我们还简要介绍了计算机视觉中的自我注意机制，因为它是Transformer的基本组成部分。在本文的最后，我们讨论了视觉Transformer面临的挑战，并提供了几个进一步的研究方向。 A Survey on Vision

Revisiting transformer for point cloud-based 3d scene graph generation

04-02

以下是简化版代码示例展示如何使用PyTorch框架搭建基本版本的Point Cloud Transformer: ```python import torch.nn as nn import torch class PointCloudTransformer(nn.Module): def __init__(self, d_model=512...

论文阅读之 Revisiting Temporal Modeling for Video-based Person ReID

qq_39220334的博客

02-18

920

1. 论文研究的主要问题一个典型的视频行人重识别系统通常包括三个部分：特征提取器，时域建模方法和损失函数。其中特征提取器用来采集图片级别的特征，时域建模方法用来融合时间特征。基于视频的行人重识别方法和基于图片的行人重识别方法最大的区别在于时域信息，视频具有图片所没有的时域信息。目前有很多文章提出了时域建模的方法，那么什么样的时域建模方法是最有效的呢？这就是论文研究的主要问题。下面给出文章及其代码实现的链接：论文链接代码链接作者对论文的解读 2. 主要工作文章的主要贡献如下：回顾并比较用于视

A Graph Transformer Model for Next Point-of-Interest Recommendation 论文解析

Matrix_cc的博客

01-24

604

少样本学习2：Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning

motoight的博客

08-25

917

前言发表信息：2019CVPR 文章链接：https://arxiv.org/abs/1903.12290 代码链接：https://github.com/WenbinLee/DN4 鉴于已有相关博文对这篇文章进行分析：https://blog.csdn.net/qq_36104364/article/details/106479996 我补充一些自己的阅读感受。一、核心思想作者开门见山指出自己收到NBNN（Naive Bayes Nearest Neighbors)的启发，通过将传统metric-b

三维点云深度学习研究综述

热门推荐

qq_42549774的博客

06-17

1万+

三维点云深度学习研究综述论文：Deep Learning for 3D Point Clouds: A Survey 作者：Yulan Guo 时间：2019-12 引言动机：Point cloud learning （点云学习）由于在视觉、自动驾驶、机器人等方面的广泛应用，近年来受到了广泛的关注。最近，随着点云的深度学习变得更加兴旺，人们提出了许多方法来解决这一领域的不同问题。为了促进未来的研究，本文对点云深度学习方法的最新进展进行了全面的综述。挑战：深度学习技术目前已经成为成功解决各种二维

实体对齐（一）：Collective Multi-type Entity Alignment Between Knowledge Graph

W 的一些小感想

12-23

2462

最近机缘巧合的了解了一些关于知识图谱应用的前沿研究，发现在很多新的研究内容中，实体对齐这样的一个传统任务依然有很大的研究价值。借实验室组会主讲的机会，特地学习了几篇实体对齐的文章，现整理这一项关于知识图谱中的多实体类型对齐的工作，对于其他几个相关工作会后续补充。论文的基本情况 "Collective Multi-type Entity Alignment Between Knowledge Graph"发表于WWW2020会议上，研究团队为伊利诺伊大学厄巴纳-香槟分校和亚马逊，第一及通讯作者为Qi Zhu。

[MICCAI2019] Attention Guided Network for Retinal Image Segmentation

xby的学习笔记存档处

08-08

2020

文章在分割网络结构中引入Guided Image Filtering 和 attension block。Guided Image Filtering用来引导图像特征，传递结构信息（边缘信息）；attension block用来去除噪声与无关背景的影响。 Guided Image Filtering Kaiming He ECCV2010提出。edge-awre滤波算子。介绍Guided Imag...

科恩论文阅读：Semantic-Aware Neural Networks for Binary Code Similarity Detection

至臻求学，胸怀云月

03-31

2827

Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection //基于语义感知神经网络的二进制代码相似性检测文章目录Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection背景摘要int...

学习Java24天

2401_88987098的博客

08-23

774

（调对象的read）相当于数据输入流（DateIntputstream）写什么打什么（如果要追加需要包低级管道，看第一行）161/199（这几天加把劲把JavaSE学完）（需要读时按照对应顺序的数据类型读数据）IO流（缓冲流和特殊流及io框架）（缓冲字节输入流（包装））（包含缓冲字节输出流）

集成电路学习：什么是SSD单发多框检测器