
虚拟现实技术
文章平均质量分 96
学步_技术
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
增强现实—Multimodal text style transfer for outdoor vision-and-language navigation
本文提出多模态文本风格迁移(MTST)方法,解决户外视觉语言导航(VLN)中的数据稀缺问题。通过将Google Maps API生成的模板化导航指令迁移为包含视觉目标描述的类人风格指令,显著增强训练数据质量。同时设计VLN Transformer模型,采用两阶段训练:先在风格迁移后的外部数据上预训练,再在真实导航数据上微调。实验表明,该方法在户外VLN任务完成率上相对提升8.7%,有效缓解了数据不足难题。研究还构建并开源了Manh-50辅助数据集,包含风格迁移后的导航指令,为后续研究提供资源支持。原创 2025-06-16 21:00:34 · 973 阅读 · 0 评论 -
增强现实—Learning to stop: A simple yet effective approach to urban vision-language navigation
本文提出了一种针对城市级视觉语言导航(VLN)任务的新方法L2STOP,通过差异化建模"停止"动作与方向动作,显著提升了导航精度。该方法包含Stop Indicator和Direction Decider两个模块,并采用加权损失函数强化停止动作学习。在TOUCHDOWN数据集上的实验表明,L2STOP在Success weighted by Edit Distance指标上实现了6.89%的绝对提升,达到了新的SOTA性能。原创 2025-06-15 10:58:37 · 821 阅读 · 0 评论 -
增强现实—Analyzing generalization of vision and language navigation to unseen outdoor areas
本文聚焦于户外视觉-语言导航(VLN)任务在未见区域中的泛化问题。研究发现,传统模型在新区域性能显著下降,而依赖图结构特征(如路口类型嵌入和航向变化)能有效提升泛化能力,图像信息贡献有限。实验基于Touchdown和map2seq数据集,提出一种融合多模态特征的序列模型(ORAR),在跨区域测试中表现优异。研究揭示了当前VLN系统对城市环境结构的依赖偏差,呼吁构建更大规模、地理多样性的数据集以推动领域发展。核心贡献包括:提出泛化增强方法、首次系统分析户外VLN的跨区域性能、验证结构特征的关键作用,并原创 2025-06-13 22:33:31 · 640 阅读 · 0 评论 -
增强现实—Generating landmark navigation instructions from maps as a graph-to-text problem
以汽车为中心的导航服务通常依赖于带有街道名称的转弯提示与距离信息,而人类自然使用的导航指令则以可见的物理对象(即地标)为核心。本研究提出了一种神经网络模型,能够接受OpenStreetMap表示作为输入,并学习生成包含显著可见地标的导航指令,这些指令贴近人类自然语言表达习惯。原创 2025-06-13 22:30:19 · 848 阅读 · 0 评论 -
增强现实—Touchdown: Natural language navigation and spatial reasoning in visual street environments
本文介绍了一个结合语言与视觉推理的新型任务TOUCHDOWN,其包含导航和空间描述解析两个子任务。该任务基于真实城市街景环境构建,要求智能体遵循自然语言指令导航至目标位置后,通过空间描述定位隐藏物体。数据集包含9,326条样本,具有语言复杂、空间推理要求高的特点。实验表明该任务对现有方法构成显著挑战。研究还分析了TOUCHDOWN与其他视觉语言任务的差异,着重其更丰富的空间表达与真实环境带来的新推理需求。该工作为现实场景下的多模态推理提供了新基准。原创 2025-06-12 14:18:57 · 1025 阅读 · 0 评论 -
增强现实—Where am I? Cross-View Geo-localization with Natural Language Descriptions
本文提出了一种基于自然语言描述的跨视角地理定位新任务,构建了CVG-Text数据集(涵盖3万+场景的街景图、卫星图、OSM及文本描述),并提出CrossText2Loc方法,在检索准确率上提升10%并具备可解释性。主要贡献包括:1)首次形式化文本驱动的跨视角定位任务;2)利用多模态大模型构建高质量数据集;3)创新方法处理长文本并生成检索解释。实验表明该方法在召回率和可解释性方面显著优于现有技术,为行人导航、紧急响应等应用提供了新解决方案。原创 2025-06-11 21:18:25 · 985 阅读 · 0 评论 -
增强现实—Flame: Learning to navigate with multimodal llm in urban environments
本文提出FLAME(FLAMingo-Architected Embodied Agent),一种面向城市视觉与语言导航(VLN)任务的新型多模态大型语言模型(MLLM)智能体。针对通用LLM在导航任务中的局限性,FLAME通过三阶段调优策略(单视角调优、多视角调优和端到端训练)有效适配导航需求,并利用GPT-4合成的增强数据进行训练。实验表明,FLAME在Touchdown和Map2seq数据集上分别取得7.3%和3.74%的任务完成率提升,显著超越现有方法。该研究不仅为城市VLN任务提供高效解决方案,更原创 2025-06-11 21:15:43 · 1120 阅读 · 0 评论 -
增强现实—Vision-and-language navigation today and tomorrow: A survey in the era of foundation models
随着基础模型(foundation models)在计算机视觉与自然语言处理领域的突破性发展,视觉-语言导航(Vision-and-Language Navigation, VLN)研究也迎来了新的转折点。近年来,VLN 任务吸引了广泛关注,并涌现出众多方法试图提升智能体在真实环境中的理解、感知与决策能力。原创 2025-06-10 15:45:12 · 726 阅读 · 0 评论 -
增强现实—Vision-and-language navigation: A survey of tasks, methods, and future directions
本文综述了视觉-语言导航(VLN)领域的研究进展,系统梳理了任务分类、数据集特点与评估方法。从通信复杂度(初始指令、请求引导、对话)和任务目标(细粒度导航、粗粒度导航、导航+交互)两个维度对VLN任务进行归类,介绍了R2R、ALFRED等代表性数据集。评估指标分为目标导向类(如成功率、路径长度)和路径保真度类,全面衡量智能体表现。文章还总结了当前技术路线与未来方向,为构建能理解自然语言、感知环境并完成复杂任务的智能体提供重要参考。原创 2025-06-09 14:01:03 · 1044 阅读 · 0 评论 -
增强现实—Loc4plan: Locating before planning for outdoor vision and language navigation
在多模态智能体导航(Vision and Language Navigation, VLN)任务中,智能体需要理解自然语言指令并根据视觉环境做出导航决策。这类任务尤其在开放空间或户外环境中极具挑战性,其中一个核心难点在于:智能体在多步执行过程中,如何明确“我现在完成了哪部分指令”,从而避免偏离目标。原创 2025-06-09 13:58:52 · 990 阅读 · 0 评论 -
增强现实系列—One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation
近年来,开放世界的3D目标生成技术取得了显著进展,其中图像到3D的方法相比文本到3D方法提供了更精细的控制。然而,大多数现有模型在快速生成速度和高保真度输入图像两方面表现不足,而这两点对于实际应用至关重要。在本文中,我们提出了一种名为 One-2-3-45++ 的创新方法,可以在约一分钟内将单张图像转化为详细的3D纹理网格。我们的方法旨在充分利用嵌入在2D扩散模型中的丰富知识,以及来自宝贵但有限的3D数据的先验知识。首先对2D扩散模型进行微调,以生成一致的多视图图像;原创 2024-11-26 15:48:20 · 944 阅读 · 0 评论 -
增强现实系列—Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception
我们依赖自身的记忆来编码、存储和提取我们的经历。然而,记忆可能会出现丢失的情况。一种有前景的记忆增强方法是利用增强现实头戴式显示设备来捕捉并保存第一视角的视频,这种做法通常称为生活记录(lifelogging)。然而,通过生活记录产生的大量视频数据带来了重大挑战,目前的技术还无法有效地编码和存储如此庞大的数据量。此外,从大量视频档案中检索特定信息需要大量计算能力,这进一步增加了快速访问所需内容的难度。为了解决这些挑战,我们提出了一种记忆增强代理,它利用自然语言编码视频数据并将其存储在向量数据库中。原创 2024-11-12 08:10:45 · 694 阅读 · 0 评论 -
增强现实系列—Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses
基于学习的视觉重定位器在姿态精度方面表现出色,但其训练需要数小时甚至数天。由于每个新场景都需要重新训练,长时间的训练使得基于学习的重定位在大多数应用中变得不切实际,尽管它在准确性方面具有很大的潜力。在本文中,我们展示了如何在不到5分钟内实现与这些系统相同的精度。我们从显而易见的方面开始:重定位网络可以分为与场景无关的特征骨干网络和与场景相关的预测头。不太明显的是,使用一个MLP(多层感知机)预测头可以让我们在每次训练迭代中同时针对数千个视点进行优化。这导致了稳定且极快的收敛速度。原创 2024-09-25 10:15:46 · 1443 阅读 · 0 评论 -
增强现实系列——Dreamfusion: Text-to-3D using 2D Diffusion
近期,文本到图像生成领域取得的突破主要得益于在数十亿图文对上训练的扩散模型。将这种方法应用于3D生成需要大量标注的3D数据集和高效的3D数据去噪架构,但目前两者都不存在。在这项工作中,我们通过使用预训练的二维文本到图像扩散模型来实现文本到3D的生成,从而绕开了这些限制。我们引入了一种基于概率密度蒸馏的损失函数,使得能够利用二维扩散模型作为参数化图像生成器优化的先验。原创 2024-09-24 09:45:00 · 1954 阅读 · 0 评论 -
增强现实系列—Diffusion Time-step Curriculum for One Image to 3D Generation
得分蒸馏采样(Score Distillation Sampling,SDS)已被广泛采用,以克服从单张图像重建 3D 对象时缺乏未见视图的问题。它利用预训练的 2D 扩散模型作为教师模型,指导学生 3D 模型的重建。尽管取得了显著的成功,基于 SDS 的方法往往会遇到几何伪影和纹理饱和的问题。我们发现其关键问题在于优化过程中对扩散时间步的无差别处理:这种方法不合理地将学生-教师知识蒸馏在所有时间步上等同对待,从而将粗粒度和细粒度的建模纠缠在一起。因此,我们提出了。原创 2024-09-23 12:15:00 · 837 阅读 · 0 评论 -
增强现实系列—Map-Relative Pose Regression for Visual Re-Localization
姿态回归网络预测查询图像相对于已知环境的相机姿态。在这类方法中,绝对姿态回归(APR)最近在位置误差范围达到几厘米级的精度方面显示出令人鼓舞的准确性。APR 网络将场景几何信息隐式地编码在其权重中。为了达到高精度,它们需要大量的训练数据,这些数据实际上只能通过耗时数天的新视图合成来创建。对于每个新场景,这一过程都必须反复进行。我们提出了一种新的姿态回归方法,称为相对于地图的姿态回归(map-relative pose regression, marepo)原创 2024-09-22 09:45:00 · 1514 阅读 · 0 评论 -
增强现实系列—Real-Time Simulated Avatar from Head-Mounte
我们提出了SimXR,一种通过从 AR / VR 头显中获取的信息(包括头显姿态和摄像机数据)来控制模拟化身的方法。由于头戴式摄像机的视角挑战,人类身体经常被截断出视野范围,使得传统基于图像的第一人称姿态估计变得困难。另一方面,头显的姿态提供了关于整体身体运动的有价值信息,但缺乏对手和脚等细节的精细描述。为了将头显姿态与摄像机信息相结合,我们控制一个人形模型来跟踪头显的移动,同时分析输入图像以确定身体的动作。当身体部位可见时,手和脚的动作将由图像引导;当不可见时,物理法则会指导控制器生成合理的运动。原创 2024-09-22 08:15:00 · 1997 阅读 · 0 评论 -
增强现实系列—GaussianAvatars: Photorealistic Head Avatar
我们介绍了 GaussianAvatars,一种用于创建逼真头像的新方法,头像在表情、姿态和视角方面完全可控。核心思想是基于3D高斯点的动态3D表示,这些点与参数化可变脸模型相绑定。该组合既能实现逼真的渲染,同时允许通过底层的参数化模型进行精确的动画控制,例如,通过从驱动序列中转移表情或手动更改可变模型参数。我们通过三角形的局部坐标系对每个高斯点进行参数化,并优化显式的位移偏移,以获得更准确的几何表示。在头像重建过程中,我们对可变模型参数和高斯点参数进行端到端的联合优化。原创 2024-09-21 09:15:00 · 1453 阅读 · 0 评论 -
利用AI增强现实开发:基于CoreML的深度学习图像场景识别实战教程
随着人工智能(AI)和增强现实(AR)技术的飞速发展,越来越多的开发者开始探索如何将两者结合,以实现更加智能的场景感知和交互体验。通过图像场景识别,应用程序可以实时分析用户周围的环境,提供相关的增强信息。本文将带领大家从理论到实战,探讨如何使用CoreML集成深度学习模型进行图像场景识别,并在增强现实应用中显示识别结果。图像场景识别是计算机视觉领域中的一个重要分支,它可以帮助机器理解图像中的物体、背景以及整体场景。通过训练深度学习模型,机器可以学习并识别不同的场景,比如室内、室外、海滩、城市等。原创 2024-09-15 18:06:42 · 2031 阅读 · 0 评论 -
增强现实系列—深入探索ARKit:平面检测、三维模型放置与增强现实交互
ARKit是由苹果公司推出的一项创新技术,自2017年首次亮相以来,它便不断推动移动设备上的增强现实体验向前发展。作为一个集成了高级计算机视觉、图形处理和传感器数据的框架,ARKit不仅为开发者提供了丰富的API,还通过不断的更新迭代,引入了更多创新功能,如面部追踪、环境理解以及与真实世界无缝融合的虚拟对象。技术演进带来的创新机遇平面检测是ARKit中用于识别和追踪水平或垂直表面的关键技术。原创 2024-08-10 00:45:35 · 2030 阅读 · 0 评论 -
人工智能3D内容生成系列—Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model
我们报告了Zero123++,这是一个图像条件扩散模型,用于从单个输入视图生成3D一致的多视图图像。为了充分利用预训练的2D生成先验,我们开发了各种条件和训练方案,以最小化从现成的图像扩散模型(如StableDiffusion)微调所需的工作量。Zero123++在从单个图像生成高质量、一致的多视图图像方面表现出色,克服了常见的问题,如纹理退化和几何错位。此外,我们展示了在Zero123++上训练ControlNet的可行性,以增强对生成过程的控制。原创 2024-07-28 00:48:41 · 3102 阅读 · 0 评论 -
单目三维内容生成系列—Zero-1-to-3: Zero-shot One Image to 3D Object
我们介绍了Zero-1-to-3框架,该框架仅需一张RGB图像即可改变物体的相机视角。为了在这种欠约束的情况下执行新视角合成,我们利用大规模扩散模型对自然图像学习到的几何先验知识。我们的条件扩散模型使用一个合成数据集来学习相对相机视角的控制,这使得可以生成在指定相机变换下同一物体的新图像。尽管该模型是在合成数据集上训练的,但它对分布外数据集以及自然图像(包括印象派绘画)具有很强的零样本泛化能力。我们的视角条件扩散方法还可以用于从单张图像进行3D重建的任务。原创 2024-07-24 11:40:05 · 1873 阅读 · 0 评论 -
扩散模型(Diffusion Model)的详细介绍
扩散模型(Diffusion Model)是一类生成模型,通过模拟数据的逐步变化过程来生成高质量的数据样本。近年来,扩散模型在图像生成、自然语言处理等领域取得了显著的成果,成为生成对抗网络(GANs)和变分自编码器(VAEs)的有力竞争者。生成模型的目标是学习数据的分布,以便能够生成与训练数据相似的新样本。传统的生成模型如GANs和VAEs存在一些不足,如训练不稳定和生成样本质量有限。扩散模型通过引入随机扩散过程,提供了一种新的生成数据的方式,解决了这些问题。原创 2024-07-24 10:40:37 · 2845 阅读 · 0 评论 -
虚拟现实和增强现实技术系列—Expressive Talking Avatars
支持远程协作者之间的交互和沟通。然而,明确的表达是出了名的难以创建,主要是因为目前的大多数方法依赖于几何标记和为人脸建模的特征,而不是为风格化的头像建模的特征。为应对情感和表现力生成说话头像的挑战,我们构建了情感说话头像数据集(),这是一个包含 6 个不同风格化角色以 7 种不同情绪说话的视频语料库。除了数据集,我们还发布了一种情感说话头像生成方法,能够操控情感。我们验证了数据集和方法在生成基于音频的木偶戏示例中的有效性,包括与最新技术的比较和用户研究。最后,讨论了该方法在 VR 中动画化头像的各种应用。原创 2024-07-23 18:06:47 · 1268 阅读 · 0 评论 -
虚拟现实和增强现实技术系列—Bring Your Own Character: A Holistic Solution for Automatic Facial Animation Generatio
虚拟角色动画一直是虚拟现实(VR)中的一个基本研究问题。面部动画在传达虚拟人的情感和态度方面起着关键作用。然而,创建这样的面部动画具有挑战性,因为目前的方法通常涉及昂贵的动作捕捉设备或需要人类动画师投入大量时间和精力来调整动画参数。在本文中,我们提出了一种整体解决方案来自动动画化虚拟人脸。在我们的解决方案中,首先训练了一个深度学习模型,通过估计混合形状系数,将输入面部图像的面部表情重定向到虚拟人脸。这种方法提供了生成不同外观和混合形状拓扑的角色动画的灵活性。原创 2024-07-21 22:47:22 · 1405 阅读 · 8 评论