AI视野·今日CS.CV 计算机视觉论文速览
Fri, 6 Nov 2020
Totally 44 papers
👉上期速览✈更多精彩请移步主页
Interesting:
📚单目深度估计CLIFFNet, 提出了一种基于层次损失的单目深度估计算法,在不同层级的嵌入空间中测量预测深度图的误差。基于设计的多级嵌入生成器架构,探索了这些参数的相关性,交叉层级识别特征融合网络(CLIFFNet)可以利用更为可高的高层级特征来提升更为精细的底层特征图,并学习顶层和底层间更好的参数组合实现融合。(from 大连理工 鹏城实验室 adobe)
code
dataset:NYU-Depth V2 dataset [27], Cityscape [3]
📚Points2Surf, 提出了一种从原始扫描点云直接学习出表面的方法,而无需法向量的辅助(from adobe 伦敦大学学院等等)
code
dataset: ABC dataset , Famous
📚ParSeNet点云参数化曲面方法, 一种可训练的基于深度学习的方法将点云转换为3D参数化曲面,通过大量训练获得了形状分解的语义先验信息,通过基于点云的分解、拟合最终优化得到最后的参数化结果。(from 麻省大学 adobe IIT)
code, dataset: ABCPartsDataset, TracePart dataset
📚基于超图卷积的图像补全技术, 为了克服注意力机制不能捕捉全局信息造成图像模糊的问题,提出了使用超图卷积(hypergraph convolution)的方法来学习数据间的复杂内在关系。(from IIT 莫纳什等等)
超图卷积的架构:
In [13], hypergraph neural network (HGNN) which introduces spectral convolution on hypergraphs, using the regularization framework introduced in [58].
In [2], the authors introduce a hypergraph attention module.
[13] Yifan Feng, Haoxuan You, Zizhao Zhang, Rongrong Ji, and Yue Gao. Hypergraph neural networks. In AAAI, 2019.
📚基于多层特征聚合的深度场景解译, 同时需要进行几何感知和语义分析的场景解析任务,需要多成特征进行聚合,生成有效的全局表达先验,改善对于特征的辨识能力,同时多个调节也提供了很强的监督信号。(from 悉尼技术大学、格里菲斯大学 澳大利亚)
📚Hypersim 室内场景理解数据集, (from 苹果)
数据集构建渲染过程:
1Chaos Group V-Ray.
2 Evermotion Archinteriors Collection.
3 TurboSquid.
📚PINNSR基于物理原理连续性的图像超分辨, 用于 Advection-Diffusion Models
模型,添加缺失数据得到细粒度结果。提升模拟分辨率。(from ibm)
物理建模系统,添加了物理约束和物理连续性:
📚医学图像配准系统,(from 伦敦大学学院 InstaDeep等等)
DeepReg
Daily Computer Vision Papers
CompressAI: a PyTorch library and evaluation platform for end-to-end compression research Authors Jean B gaint, Fabien Racap , Simon Feltman, Akshay Pushparaja 本文介绍了CompressAI,这是一个提供自定义操作,层,模型和工具以研究,开发和评估端到端图像和视频压缩编解码器的平台。特别是,CompressAI包括预先训练的模型和评估工具,用于将学习的方法与传统编解码器进行比较。因此,已在PyTorch中重新实现了从学习到的端到端压缩的最新技术模型,并从头开始进行了训练。我们还使用Kodak图像数据集作为测试集,报告了使用PSNR和MS SSIM指标与比特率的客观比较结果。尽管此框架当前实现用于静态图片压缩的模型,但打算很快将其扩展到视频压缩域。 |
Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers Authors Zhaoshuo Li, Xingtong Liu, Francis X. Creighton, Russell H. Taylor, Mathias Unberath 立体深度估计依赖于左右图像中对极线上像素之间的最佳对应匹配来推断深度。在这项工作中,我们没有从单个像素上进行匹配,而是从序列到序列对应的角度重新审视了该问题,以使用位置信息和注意力将像素数量结构替换为密集的像素匹配。这种称为STereo TRANSformer STTR的方法具有多个优点。1放宽了固定视差范围的限制,2识别了被遮挡的区域并提供了估计的置信度,3在匹配过程中施加了唯一性约束。我们在合成数据集和现实世界数据集上均报告了令人鼓舞的结果,并表明STTR可以很好地在不同领域进行泛化,即使没有进行微调也是如此。我们的代码可在以下位置公开获得 |