在Garage项目中实现自定义强化学习环境指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00447/article/details/148916958

在Garage项目中实现自定义强化学习环境指南

概述

Garage作为一个强化学习框架，提供了灵活的环境接口来支持各种RL算法的训练和测试。本文将详细介绍如何在Garage中实现自定义强化学习环境，包括环境包装器的创建和全新环境的实现。

Garage环境接口基础

Garage采用与OpenAI Gym兼容的环境API，但在此基础上进行了扩展，使用akro来描述输入和输出空间。如果你已有Gym兼容的环境，可以直接通过GymEnv包装器在Garage中使用：

from garage.envs import GymEnv

# 两种等效的创建方式
env = GymEnv('CartPole-v1')  # 直接使用环境ID
env = GymEnv(gym.make('CartPole-v1'))  # 使用已创建的Gym环境

添加环境包装器

当需要将现有环境集成到Garage时，通常需要创建一个环境包装器来处理特定逻辑。Garage已经为常见环境提供了包装器：

DmControlEnv: 支持DeepMind的dm_control API
BulletEnv: 支持pybullet物理引擎

创建环境包装器的关键步骤

指定观察空间和动作空间 使用akro定义有效的观察和动作范围
实现reset和step方法
- reset(): 初始化环境状态
- step(action): 执行动作并返回结果
可选实现序列化方法
- __getstate__和__setstate__: 确保环境可被pickle序列化
编写单元测试 建议为自定义环境添加测试用例，确保功能正确性

实现全新环境实例：2D点机器人

下面我们通过一个完整的例子来演示如何实现一个简单的2D点机器人环境。

环境规格

观察空间: 机器人当前位置(x,y) ∈ ℝ²
动作空间: 机器人速度(ẋ,ẏ) ∈ ℝ²，限制|ẋ|≤0.1，|ẏ|≤0.1
奖励函数: r(x,y) = -√(x²+y²)，鼓励机器人移动到原点
终止条件: 当机器人接近原点(|x|<0.01且|y|<0.01)时终止

基础实现

首先定义环境类并实现空间属性：

import akro
import numpy as np
from garage import Environment

class PointEnv(Environment):
    @property
    def observation_space(self):
        return akro.Box(low=-np.inf, high=np.inf, shape=(2,))
    
    @property
    def action_space(self):
        return akro.Box(low=-0.1, high=0.1, shape=(2,))

核心方法实现

reset()方法 - 随机初始化机器人位置

def reset(self):
    self._state = np.random.uniform(-1, 1, size=(2,))
    return np.copy(self._state)

step()方法 - 更新状态并计算奖励

def step(self, action):
    self._state += action  # 更新位置
    x, y = self._state
    reward = -np.sqrt(x**2 + y**2)  # 负距离作为奖励
    done = abs(x) < 0.01 and abs(y) < 0.01  # 终止条件
    return np.copy(self._state), reward, done, None

render()方法 - 简单打印当前状态

def render(self):
    print(f"Current state: {self._state}")

环境测试与使用

随机策略测试

python scripts/sim_env.py garage.envs.point_env --mode random

使用TRPO算法训练

@wrap_experiment
def trpo_point(ctxt=None, seed=1):
    set_seed(seed)
    with TFTrainer(ctxt) as trainer:
        env = normalize(PointEnv())
        policy = CategoricalMLPPolicy(
            name='policy',
            env_spec=env.spec,
            hidden_sizes=(32, 32))
        
        algo = TRPO(
            env_spec=env.spec,
            policy=policy,
            baseline=LinearFeatureBaseline(env_spec=env.spec),
            sampler=LocalSampler(
                agents=policy,
                envs=env,
                max_episode_length=env.spec.max_episode_length),
            discount=0.99,
            max_kl_step=0.01)
        
        trainer.setup(algo, env)
        trainer.train(n_epochs=100, batch_size=4000)