【论文阅读】Visually Robust Adversarial Imitation Learning from Videos withContrastive Learning

摘要:我们提出了 C-LAIfO(Contrastive Latent Adversarial Imitation from Observations)算法,这是一种计算高效的算法,旨在解决在智能体和专家领域存在视觉不匹配的情况下,从视频中进行模仿学习的问题。我们分析了从存在视觉差异的专家视频中进行模仿学习的问题,并引入了一种利用对比学习和数据增强技术进行鲁棒潜在空间估计的解决方案。在获得视觉鲁棒的潜在空间后,我们的算法通过离策略对抗模仿学习(off-policy adversarial imitation learning),完全在该空间内进行模仿学习。我们进行了全面的消融实验来验证我们的设计,并在高维连续机器人任务中对 C-LAIfO 算法进行了测试。此外,我们展示了 C-LAIfO 算法如何与其他奖励信号相结合,以促进在一组具有稀疏奖励的具有挑战性的手部操作任务中进行学习。我们的实验表明,与基线方法相比,该算法性能有所提升,突出了 C-LAIfO 算法的有效性。为确保研究的可重复性,我们开源了代码。

一、引言

近年来,从专家视频中进行模仿学习的研究显著增加,这通常被称为视觉观察模仿(Visual Imitation from Observations,V-IfO)问题。从视频中模仿专家的方法为未来提供了一种经济高效的方式,用于教授自主智能体新的技能和行为。为实现这一目标,先前的研究开发了能够同时解决 V-IfO 框架两个主要挑战的方法:决策过程的部分可观测性和专家动作的缺失。尽管取得了这些进展,但由于假设专家和学习智能体在相同环境中运行,最先进的端到端算法在实际应用中仍面临重大障碍。例如,考虑图 1 中描述的场景,专家视频是在图 1a 的条件下收集的,而自主智能体部署在图 1b 或图 1c 的环境中。当前的方法无法处理光照和背景的这种变化,导致在这些情况下学习失败。在本文中,我们的目标是提高自主智能体在存在视觉不匹配情况下的模仿能力

 图 1:机器人操作任务。当前从专家视频进行模仿学习的端到端方法假设专家和智能体在相同环境中运行。因此,它们无法处理光照或背景的变化。

我们引入了一种新颖的端到端流程,用于从存在视觉不匹配的专家视频中进行模仿学习。我们首先分析存在视觉不匹配的 V-IfO 问题,并提出一种新颖、简单且计算高效的算法,称为基于对比学习的潜在对抗观察模仿(Contrastive Latent Adversarial Imitation from Observations,C-LAIfO)算法。值得注意的是,C-LAIfO 算法基于最近的 LAIfO(Latent Adversarial Imitation from Observations)算法,并通过数据增强和对比学习技术实现了视觉鲁棒的潜在状态估计。我们通过全面的消融实验证明了算法中每个设计选择的合理性,包括数据增强的类型和对比损失函数。此外,我们将 C-LAIfO 算法与两个 V-IfO 基线算法(LAIfO 和 PatchAIL)以及作为存在域不匹配的 V-IfO 基线算法的 DisentanGAIL 进行了比较。此外,我们展示了如何将使用 C-LAIfO 算法从专家数据中学习到的奖励信号轻松地与其他信号相结合,以提高效率,并在具有稀疏奖励函数的机器人任务中实现学习。因此,我们在 Adroit 平台上对动态灵巧操作任务进一步评估了我们的算法。这些额外的实验突出了我们方法的通用性,展示了其在处理复杂机器人任务方面的有效性。 

二、相关工作

(a)观察模仿学习

模仿学习(Imitation Learning,IL)是一种强大的方法,它允许智能体通过通常以状态 - 动作对形式呈现的任务演示来模仿专家行为。我们的工作基于对抗模仿学习(Adversarial Imitation Learning,AIL),该方法将 IL 构建为鉴别器和智能体策略之间的两人博弈。在这里,鉴别器区分状态 - 动作对是由智能体还是专家策略生成的。在实践中,AIL 被表述为强化学习(Reinforcement Learning,RL)和逆强化学习(inverse RL)的联合过程。首先,从专家演示中推断出奖励函数,然后在 RL 步骤中用于训练智能体。在部分可观测的场景中,AIL 已应用于信息缺失的情况,以及视觉 IL 中,在视觉 IL 中,智能体从视频帧作为状态观察中学习。与标准 IL 相比,观察模仿学习假设在演示数据中动作信息不可观测。与 IL 相比,这种设置更实际,但也更难处理在没有专家动作的情况下从视频中学习,这就产生了 V-IfO 问题,这是我们工作的主要关注点。V-IfO 设置的端到端最先进算法包括 PatchAIL,它使用 PatchGAN 鉴别器直接在像素空间上应用 AIL,以及 LAIfO,其中 AIL 在智能体状态的潜在表示上运行。值得注意的是,这些方法都基于专家和学习智能体在相同决策过程中行动的假设,而这在现实场景中很少成立

这个假设指的是在视觉观察模仿(V-IfO)问题中,专家和学习智能体在相同决策过程中行动。在实际的视觉模仿学习场景里,比如机器人操作任务,当前的一些端到端算法(如 PatchAIL 和 LAIfO)在设计时假定专家执行任务收集数据的环境,与学习智能体后续应用所学技能的环境是一样的,它们面临的决策情况相同,处理的视觉信息也相似。

 

然而,在现实世界中,这种假设很难成立。就像文中提到的机器人操作任务,专家视频收集的环境和智能体部署的环境可能在光照、背景等方面存在差异,这些视觉上的不匹配会导致智能体难以直接应用基于该假设设计的算法来有效学习专家的行为 

(b)存在环境不匹配的视频模仿学习

我们的研究针对专家和学习者环境之间存在不匹配的视觉观察模仿学习问题,这个问题也被称为第三人称 IL、域自适应 IL 或跨域 IL。文献中的解决方案要么将这个问题分解为连续的阶段,要么制定端到端的方法。顺序方法 Sequential approaches 包括:通过利用上下文转换的视频预测来学习奖励函数;使用离线训练的时间对比网络获得奖励函数

“P. Sermanet, C. Lynch, Y. Chebotar, J. Hsu, E. Jang, S. Schaal, S. Levine, and G. Brain, 'Time-contrastive networks: Self-supervised learning from video,' in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 1134–1141” 

离线训练循环一致对抗网络,从视频中生成智能体域中的指令图像;使用逆模型和对抗域适应从视频中训练导航策略;以及通过视频中的 3D 轨迹重建获得符合物理规律的轨迹。我们的工作与这些文献不同,因为我们制定了一种完全端到端的方法。

(c)存在不匹配的视频端到端模仿学习算法

以前的端到端解决方案在文献 [ 20 ], [29 ], [ 5], [ 30 ] 中有提出。文献 [ 20] and [ 5 ] 中的研究提取与域无关的特征来推断与域无关的奖励函数。具体来说,文献20中的作者提出使用类似于文献 31 的对抗方法来学习与域无关 domain-independent 的特征,而 DisentanGAIL 通过在用于 AIL 的二元交叉熵损失中添加互信息约束来实现类似的结果

与我们的算法类似,这些研究制定了完全无模型的端到端算法,避免了模仿过程中代价高昂的生成步骤。我们的方法采用了与文献[ 20 ], [ 5 ]类似的推理;然而,我们利用对比学习进行与域无关的特征提取,并在这个学习到的特征空间上构建整个 AIL 流程(包括奖励推断和 RL 步骤),而不仅仅像文献那样只在奖励推断中使用。正如我们的实验所示,这导致了性能的显著提升。其他工作依赖于昂贵的生成步骤来解决不匹配问题。文献 29 中,通过学习到的与域无关的递归状态空间模型 recurrent state space mode,使用专家观察 - 动作对进行模仿。另一方面,我们的算法是无模型的,只需要专家观察。文献 30 中,在线训练循环一致对抗网络,在智能体域中生成专家视频,从而将问题简化为没有不匹配的标准 V-IfO 问题。我们的方法不需要这样的生成步骤,因为它直接学习与域无关的特征空间。

三、预备知识

我们使用大写字母(例如,)表示随机变量,小写字母(例如,s_t)表示随机变量的值,花体字母(例如,)表示集合,加粗小写字母(例如,)表示向量。令为满足的整数 t 的集合;我们将写作。我们用表示期望,用表示概率,用表示两个分布之间的 f - 散度,其中詹森 - 香农散度(Jensen-Shannon divergence)是其特殊情况。

(a)部分可观测马尔可夫决策过程

我们将决策过程建模为无限期折扣部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes,POMDPs),用元组描述,其中是状态集,是动作集,是观测集。是转移概率函数,其中表示上的概率分布空间,是观测概率函数,是奖励函数,它将状态 - 动作对映射到标量奖励。最后,是初始状态分布,是折扣因子。智能体无法观测到真实环境状态。给定动作 ,下一个状态根据  采样,观测根据生成,并计算奖励。注意,马尔可夫决策过程(Markov Decision Process,MDP)是 POMDP 的特殊情况,其中潜在状态 s 是直接可观测的。

(b)强化学习

给定一个 MDP 和一个平稳策略 ,RL 的目标是最大化期望总折扣回报 expected total discounted return

,其中。平稳策略 \pi 诱导出归一化折扣状态访问分布 normalized discounted state visitation distribution,定义为,我们定义相应的归一化折扣状态 - 动作访问分布为 。最后,我们将\pi的状态值函数表示为  ,状态 - 动作值函数表示为。当一个函数由参数参数化时,我们写作

(c)生成对抗模仿学习

假设我们有一组由专家策略  生成的专家演示 ,一组由策略生成的轨迹,以及一个由参数化的鉴别器网络 。生成对抗 IL 优化最小 - 最大目标:

关于最大化公式 (1) 实际上是一个逆 RL 步骤,其中通过利用推断出奖励函数 。关于 \theta 最小化公式 (1) 是一个 RL 步骤,其中智能体旨在最小化其期望成本。优化公式 (1) 等价于最小化 ,因此我们正在恢复专家状态 - 动作访问分布。

(d)在 POMDP 中建模视觉不匹配

传统上,V-IfO 问题假设专家和智能体在相同的 POMDP 中运行。在本文中,我们放宽了这个假设,定义了两个不同的决策过程:即智能体的目标 POMDP target-POMDP 和专家的源 POMDP source-POMDP。目标 POMDP 由元组表征,而源 POMDP 由元组表征。这些 POMDP 之间的主要区别在于它们的观测概率函数。尽管共享相同的状态和动作空间,但给定相同的状态,专家从源 POMDP 的观测  和智能体从目标 POMDP 的观测  可能不同(即我们可能有)。我们将此称为视觉不匹配

四、基于对比学习的潜在对抗观察模仿

考虑上一节介绍的目标 POMDP 和源 POMDP,我们可以在观测空间  中识别出两个层次的信息:与任务完成相关的信息;对任务完成没有贡献的视觉干扰信息。因此,我们将定义为,其中表示在源 POMDP 和目标 POMDP 之间不变的目标完成信息;而表示对目标完成没有贡献的视觉干扰信息集。我们分别将源观测和目标观测表示为。我们的目标是从源观测和目标观测中过滤掉视觉干扰信息 ,同时保留目标完成信息,以有效地解决 V-IfO 问题。这个目标可以通过在特征空间 中实现域不变性 domain invariance 来实现。因此,我们的目标是学习 ,使得只保留目标完成信息,而丢弃视觉干扰信息(有关正式分析,请参阅本文 Arxiv 版本的补充材料)。

在以下内容中,我们介绍我们的算法 C-LAIfO 的主要组件,该算法直接在域不变特征空间  中进行模仿(见第四节 A 部分)。为了做到这一点,我们学习一个域不变编码器 ,它可以通过两个主要步骤成功地将 映射到。首先,我们与评论家网络(其中 )一起训练编码器 (见第四节 B 部分)。这一步对于解决模仿问题以及在潜在空间 中嵌入目标完成信息至关重要。我们进一步训练  以优化辅助对比损失,并考虑源域和目标域之间的视觉不匹配类型对观测进行随机增强(见第四节 C 部分)。这一步对于从中有效地丢弃视觉干扰信息至关重要。图 2 提供了总结整个 C-LAIfO 流程的示意图。

图 2:C-LAIfO 算法概述。在图中,黑线表示网络之间共享的权重,蓝色箭头表示网络的前向传递,红色箭头表示反向传递。损失分别在公式 (2)、(3) 和 (5) 中定义。表示确定性策略梯度损失。

(a)潜在空间中的对抗模仿

给定一个域不变的特征空间 ,我们的对抗模仿学习(AIL)流程定义如下。我们初始化两个回放缓冲区,分别用于存储由专家策略和智能体策略生成的观测序列,从这些序列中我们推断出潜在状态转移 。为简化表示,我们记 。然后,给定一个判别器 ,我们有:



如前所述,将公式(2)与使用 的强化学习(RL)步骤交替进行,会使得  最小化 。因此,我们实际上是在潜在空间 中模仿专家的行为。需要注意的是,只有当是域不变的,并且嵌入了解决模仿问题所需的相关目标完成信息时,上述的 AIL 方法才能成功。接下来,我们将展示我们的算法 C-LAIfO 是如何应对这一挑战的。

 

(b)评论家网络和编码器训练步骤

我们将编码器定义为 ,这是一个将个观测序列映射到潜在空间的函数。具体来说,我们记  和 ,其中 。当对观测序列应用数据增强函数 时,我们记  和 。我们训练 来优化:



公式 (3)-(4) 中的步骤遵循深度 Q 网络优化流程,我们在公式 (3) 中添加了一个基于编码器 定义的对比辅助损失 。在公式 (4) 中,奖励函数  通过公式 (2) 中的 AIL 步骤计算得到。需要注意的是,在计算  时我们不进行数据增强,因为在奖励推断过程中,我们是在部署而不是训练编码器 。在实践中,在公式 (2) 的 AIL 中添加数据增强会降低性能。相关实证证据可参考论文的 Arxiv 版本。在公式 (3) 中,编码器 与评论家网络 一起训练,以回归公式 (4) 中的 y,其中表示对编码器参数的停止梯度操作。公式 (4) 中 y 的值通过将 时刻的折扣目标评论家网络的值相加得到。在公式 (4) 中,,其中是一个裁剪后的探索噪声,c 是裁剪参数,是均值为 0、标准差为的单变量正态分布。 和 是目标评论家网络的慢更新权重。是一个回放缓冲区,初始时用于存储智能体与目标环境的交互 。需要注意的是,潜在状态转移 是通过 从观测序列中推断出来的,同样为简化符号,我们记 。完整的伪代码可参考论文的 Arxiv 版本。通过求解公式 (3)-(4) 中的优化问题,我们的主要目标是训练编码器网络 和评论家网络 ,以解决使用奖励  的 RL 问题。换句话说,这一步骤的重点是在潜在空间中保留目标完成信息,以便成功学习评论家网络 。我们在消融实验中表明,从反向传播梯度是实现这一目标和解决模仿问题的重要步骤。同样,对观测序列执行的增强类型以及辅助损失的选择,在从 中丢弃视觉干扰信息和处理视觉不匹配方面起着至关重要的作用

c)对比损失

接下来,我们介绍 C-LAIfO 算法在公式 (3) 中的数据增强技术和辅助损失。我们选择对比方法,因为它在实证结果和计算效率方面都表现良好。对比学习通过在潜在空间中使用对比损失来最大化同一数据示例的增强视图之间的一致性,从而构建高维数据的低维表示。在我们的具体案例中,我们将具有相同目标完成信息的观测序列定义为等效数据。数据增强通过考虑一组预先确定的函数来实现随机化。我们将在实验(第五节)中展示,对比损失的选择和增强函数集在过滤视觉干扰信息方面都起着重要作用。首先,一个随机数据增强模块将任何给定的观测序列转换为两个视图 ,记为  和 ,这两个视图被称为正样本对。请注意,两个正样本对必须包含相同的目标完成信息。接下来,编码器 从增强后的观测序列中提取表示向量。我们记 和。最后,我们应用对比损失函数:

其中是一个指示函数,当 时等于 1, 表示温度参数,  表示余弦相似度。我们从缓冲区  中采样一批 N 个观测序列,并定义从这批数据中派生的增强序列对,从而得到 2N 个数据点。负样本数据点不是显式采样的。相反,对于一个正样本对,我们将批次中的其他  个增强数据点视为负样本。请注意,公式 (5) 中的损失被称为归一化温度缩放交叉熵损失或信息噪声对比估计(InfoNCE)损失,它表示正样本对之间负互信息的上界。因此,通过在公式 (3) 中最小化公式 (5),我们正在最大化潜在空间中正样本对之间的互信息。

  • 互信息概念:互信息是用于衡量两个随机变量之间共享信息的量。在对比学习里,正样本对(包含相同目标完成信息的增强观测序列对)之间的互信息越大,表明从这些观测中提取的特征在潜在空间中保留的有用信息越多,越能帮助模型过滤掉视觉干扰信息,实现更好的学习效果。
  • 上界意义:InfoNCE 损失作为负互信息的上界,通过最小化这个损失,就可以最大化正样本对之间的互信息。

五、实验

在本节中,我们首先进行消融实验,以证明我们算法设计选择的合理性(第五节 A 部分)。接下来,我们展示 C-LAIfO 如何有效地处理 V-IfO 设置中的各种视觉不匹配情况(第五节 B 部分)。最后,我们展示 C-LAIfO 如何促进在具有稀疏奖励和真实视觉输入的具有挑战性的机器人操作任务中的学习(第五节 C 部分)。在所有实验中,我们使用深度确定性策略梯度(DDPG)在完全可观测的设置下训练专家,并收集 100 个情节的专家数据。学习到的策略根据 10 个情节的平均回报进行评估。我们报告 6 个随机种子下最终回报的均值和标准差,并突出显示最佳性能。

(a)消融实验

在本节中,我们进行以下消融实验:

  1. 对比损失函数:通过将公式 (5) 中的 InfoNCE 损失与文献 [4] 中的 Bootstrap Your Own Latent(BYOL)进行比较,展示对比损失函数类型的重要性。
  2. 梯度反向传播:强调在公式 (3) 中从向反向传播梯度对于解决模仿问题和在潜在空间中嵌入目标完成信息的必要性。
  3. 数据增强:强调为给定的不匹配选择合适增强的重要性,表明针对不匹配设计的增强优于通用增强或不进行增强。

这些结果总结在表 I 中,其中包括 C-LAIfO 及其各种配置的结果。所有学习曲线可在论文的 Arxiv 版本中找到。在表 I 中,C-LAIfO 按照第四节中的描述实现,数据增强函数定义为亮度变换。在 BYOL-LAIfO 中,除了将公式 (5) 中的 InfoNCE 损失替换为 BYOL 外,我们保留与 C-LAIfO 相同的设计。在 C-LAIfO w/o Q backprop 中,我们在公式 (3) 中禁用从向的梯度反向传播。最后,在 C-LAIfO full aug 和 C-LAIfO w/o aug 中,我们分别修改数据增强函数 ,以包括完全增强(亮度、颜色和几何变换,详细信息见论文的 Arxiv 版本)和不进行增强。值得注意的是,如果不进行从的梯度反向传播,即使在最简单的不匹配场景中,C-LAIfO 也无法解决模仿任务。这一结果表明了这一步骤对于在 Z 中嵌入目标完成信息的重要性。对于的设计也有类似的考虑,当增强过于通用或不存在时,C-LAIfO 都难以有效地解决任务。这些结果突出了正确定义 对于在 Z 中实现高效视觉泛化的关键作用。最后,从表 I 中可以明显看出,公式 (5) 中的 InfoNCE 损失在处理最困难的不匹配情况时,性能优于 BYOL。

(b)存在不匹配的视觉观察模仿

Fig. 3: Different environments used for the experiments in Table II and the PCA in Fig. 4 and 5.

在本节中,我们在具有不同类型不匹配的 V-IfO 设置中测试 C-LAIfO(见图 3),并将其与三个基线算法进行比较:LAIfO 和 PatchAIL,它们都配备了与 C-LAIfO 相同的 ,以及 DisentanGAIL。

结果总结在表 II 中,表明 C-LAIfO 成功解决了存在不匹配的 V-IfO 问题,在所有提出的不匹配情况下,性能均优于所有基线算法。所有学习曲线可在论文的 Arxiv 版本中找到。在 “Light” 实验中,定义为亮度变换;而在其他实验中,它定义为颜色变换。关于的详细信息见论文的 Arxiv 版本。此外,为了评估 C-LAIfO 是否在特征空间中实现了域不变性,我们对不同算法在训练过程中学习到的潜在空间进行主成分分析(PCA)。

在图 4 中,我们比较了 LAIfO、C-LAIfO 和使用数据增强的 LAIfO 在表 II 中 “Light” 设置下学习到的潜在空间。具体来说,我们将源和目标 source and target 分别定义为由源和目标 POMDP 中的最优策略生成的观测。类似地,源随机和目标随机是由随机策略生成的观测。这些观测通过使用相应算法训练的编码器进行处理。我们对这组潜在变量进行 PCA,并绘制前两个主成分。结果表明,C-LAIfO 是唯一能够过滤掉视觉干扰信息并将具有相同目标完成信息的数据点聚集在一起的算法

在图 5 中,我们专注于 C-LAIfO,并测试其对图 3d 中未见过环境的泛化能力。我们在表 II 中的 “Full” 设置上训练,并按照上述方法进行 PCA。未见过设置下的结果与 “Full” 实验中的结果相匹配,表明在 (3c) 上训练的可以成功泛化到 (3d) ??。有关 t-SNE 可视化和其他详细信息,请参考论文的 Arxiv 版本。

表二:图3中不匹配情况的实验总结。“Light”实验中,以(3b)作为源部分可观测马尔可夫决策过程(POMDP),(3a)作为目标POMDP。“Full”实验中,以(3b)作为目标POMDP,(3c)作为源POMDP。我们对所有算法在“Light”不匹配情况下训练106步,在“Full”不匹配情况下训练$2×10^{6}$步。

Fig. 4: PCA results for the Light experiment in Table II.

Fig. 5: PCA results on C-LAIfO for the Full experiment in Table II and the unseen environment in Fig. 3d.

(c)C-LAIfO 在灵巧操作中的应用

在以下部分,我们在 Adroit 平台上的一系列具有挑战性的机器人操作任务中评估我们的算法,这些任务用于动态灵巧操作。这些实验展示了 C-LAIfO 从专家视频中学习到的奖励,如何有效地与智能体通过与环境交互收集的稀疏奖励 R 相结合,以提高学习效率。因此,强化学习问题旨在最大化总奖励,其中 通过公式 (2) 中的 AIL 步骤学习得到。这种方法在机器人任务中特别相关,因为在现实世界场景中,稀疏奖励通常是最可行的选择。然而,仅依赖稀疏奖励会使学习变得极具挑战性且效率低下。在这种情况下,利用专家视频可以显著提高效率。我们将 C-LAIfO 与标准的 LAIfO 算法进行比较,LAIfO 算法没有明确解决源和目标 POMDP 之间的视觉不匹配问题。C-LAIfO 和 LAIfO 都使用编码器处理像素观测,并在中提取嵌入,然后将其与机器人的感官观测连接起来。值得注意的是,在模仿过程中不使用专家的感官观测,因为我们仅假设可以访问专家视频。我们的方法表示为 RL + C-LAIfO(或 RL + LAIfO),旨在最大化 ,而不是像标准模仿学习问题那样仅最大化

结果总结在表 III 中,表明与 LAIfO 相比,C-LAIfO 更有效地利用存在视觉不匹配的专家视频来促进学习。这展示了我们的方法在利用最少形式的监督(仅依赖专家视频)的情况下,在具有挑战性的机器人任务中实现学习的潜力。所有学习曲线可在论文的 Arxiv 版本中找到。

六、结论

在这项工作中,我们分析了存在视觉不匹配的 V-IfO 问题,并提出了一种名为 C-LAIfO 的新颖算法作为有效的解决方案。通过全面的消融实验,我们深入了解了我们的设计,并展示了在各种不匹配场景下,与一系列基线算法相比,我们的方法具有优越的性能。此外,我们说明了 C-LAIfO 如何有效地利用存在视觉不匹配的专家视频,来促进在具有稀疏奖励和真实视觉输入的具有挑战性的手部操作任务中的学习。

当前方法的一个主要限制是 C-LAIfO 依赖于精心设计的、可能针对不匹配情况的定制数据增强函数。正如我们在第五节的消融实验中所示,通用的增强可能导致性能不佳,或者显著降低算法的样本效率。此外,为某些类型的不匹配设计有效的增强可能具有挑战性。为了解决这个问题,探索用于自动数据增强的生成模型是一个有趣的研究方向。生成模型可以生成多样化的、针对不匹配情况的增强,有可能克服手动设计策略的局限性。或者,研究对增强技术依赖较少的不同辅助损失也是另一个有趣的方向。最后,未来的工作将致力于超越模拟环境,在真实世界场景中的硬件上测试我们的算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值