Abstract
提出了一个semantic graph Transformer (SGT),目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临两个问题:1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。
具体来看,该模型包含了两个Transformer层:1. 提出了一个图嵌入层,来更好的利用图中边的信息。2. 提出了一个语义注入层,来利用文本标签和视觉对象知识。
Proposed Approach
该模型分为两个模块Graph Embedding Layer(GEL)and Semantic Injection Layer(SIL)。
Node and Edge feature generation
输入是有instance label但没有category label的点,然后用pointnet进行特征提取,得到物体的特征。假设所有的物体之间都有边,因此边的特征由相连的两个物体的特征得到。
||表示拼接
Graph Embedding Layer
Multi-Head Edge-aware Self-Attention
上图可以看出有三个输入但是只有两个输出,三个输入分别是边的特征,两个节点的特征。输出分别是节点i的特征和新一轮的边的特征,其中使用ViV_iV