强化学习面试题（一）

最新推荐文章于 2025-06-17 07:23:00 发布

涂绿叶

最新推荐文章于 2025-06-17 07:23:00 发布

阅读量910

点赞数 25

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签： python 深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_56038008/article/details/139901973

强化学习面试题（一）

关键词

强化学习（reinforcement learning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。
动作（action）：环境接收到的智能体基于当前状态的输出。
状态（state）：智能体从环境中获取的状态。
奖励（reward）：智能体从环境中获取的反馈信号，这个信号指定了智能体在某一步采取了某个策略以后是否得到奖励，以及奖励的大小。
探索（exploration）：在当前的情况下，继续尝试新的动作。其有可能得到更高的奖励，也有可能一无所有。
利用（exploitation）：在当前的情况下，继续尝试已知的可以获得最大奖励的过程，即选择重复执行当前动作。
深度强化学习（deep reinforcement learning）：不需要手动设计特征，仅需要输入状态就可以让系统直接输出动作的一个端到端（end-to-end）的强化学习方法。通常使用神经网络来拟合价值函数（value function）或者策略网络（policy network）。
全部可观测（full observability）、完全可观测（fully observed）和部分可观测（partially observed）：当智能体的状态与环境的状态等价时，我们就称这个环境是全部可观测的；当智能体能够观察到环境的所有状态时，我们称这个环境是完全可观测的；一般智能体不能观察到环境的所有状态时，我们称这个环境是部分可观测的。
部分可观测马尔可夫决策过程（partially observable Markov decision process，POMDP）：即