文章摘要:
在这项工作中,我们探索了一种基于单视图场景点云生成人类抓取的新任务,该任务更准确地反映了从单个视点观察对象的典型现实世界情况。由于点云不完整和场景点众多的存在,生成的手容易穿透物体的不可见部分,模型容易受到场景点的影响。因此,我们引入了 s2hgrasp,这是一个由两个关键模块组成的框架:全局感知模块全局感知部分对象点云,以及 diffugrasp 模块,旨在基于包括场景点的复杂输入生成高质量的人类抓取。此外,我们引入了 s2hgd 数据集,该数据集包含 1,668 个唯一对象的大约 9,000 个单对象单视图场景点云,每个点云都用一个人类抓取进行注释。我们广泛的实验表明,无论场景点如何,s2hgrasp 不仅可以生成自然的人类抓取,还可以有效防止*对应作者与对象不可见部分之间的穿透。此外,我们的模型在应用于看不见的对象时表现出强大的泛化能力。我们的代码和数据可在 https://github.com/isee-laboral/s2hgrasp 获得。结论:在这项工作中,我们探索了一种基于单视图场景点云而不是完整对象模型生成人类抓取的新任务。我们提出了 s2hgrasp,以及一个新的合成数据集 s2hgd,以解决由对象点云的不完整引起的手-物穿透问题。我们设计了一个全局感知模块来全局感知部分对象,以及一个diffugrasp模块,以生成可信和自然的人类抓取,尽管场景点众多。我们的 s2hgrasp 有效地克服了现有方法的局限性,并将人类抓取生成扩展到完整的对象模型之外,有利于手-对象交互的研究。实验结果表明,s2hgrasp的性能优于其他方法,在不同的数据集和不可见的对象之间实现了令
CVPR2024-3-单视角抓取“Single-View Scene Point Cloud Human Grasp Generation”
于 2024-11-15 08:04:09 首次发布