Related works
1. visual relationships
2. Neural networks on a graph
3. Memory augmented neural network
文章方法上值得关注的地方
This paper propose a dynamic adjacency tensor memory (DATM) for the DGGN to store information about the relationships among the elements in a diagram.
将graph的边与动态的memory network结合在一起,蛮创新的。基础框架仍然是DGGN,但结合进memory network不仅能在节点之间传递消息(message-passing between nodes) ,而且能在线地构建图的边(build the edges of a graph online),为图的生成和推理提供了很大的潜力。
dynamic adjacency tensor memory(DATM)其实是一个n∗n∗(m+1)n*n*(m+1)n∗n∗(m+1)的三维矩阵,该三维矩阵由两部分拼接而成,一部分是邻接矩阵 A∈Rn∗nA\in R^{n*n}A∈Rn∗n,另一部分是对应的隐单元H,其(i,j)(i,j)(i,j)元素h(i,j)h_{(i,j)}h(i,j)是GRU的m维隐向量,与节点oio_ioi和ojo_joj之间的连接有关。邻接矩阵A表示有向图中n个节点之间的连接状态。对于每个GRU 单元的输入就是ftf_tft即ft(l),t=1,2,...,n2f_t^{(l)}, t = 1,2,...,n^2ft(l),t=1,2,...,n2, ftf_tft表示两个object特征之间的拼接。
对于Retrieval而言,就是用边的存在概率aaa加权了oio_ioi和ojo_joj的相邻向量hhh, 并且添加全局特征f(g)f^{(g)}f(g)以反映图表的全局形状, 形成ttt时刻的GRU隐层向量hth_tht。
对于Update而言,其中memory里面的一个cell Di,jD_{i,j}Di,j是由一个GRU cell的输出ata_tat与隐层单元hth_tht拼接而成。
为了得到隐藏状态hth_tht,使用了向量ht−1h_{t−1}ht−1和ftf_tft作为标准GRU的先前隐藏状态和输入向量。
这是包含detection与graph generation的多任务学习,因此其loss包含三项,目标检测分支的分类损失LcL_cLc和位置回归损失LlL_lLl,图生成网络的关系分类损失LrL_rLr。