当前位置:网站首页>【论文阅读】Deep Reinforcement Learning amidst Continual Structured Non-Stationarity

【论文阅读】Deep Reinforcement Learning amidst Continual Structured Non-Stationarity

2022-09-23 08:59:17见见大魔王

【论文阅读】Deep Reinforcement Learning amidst Continual Structured Non-Stationarity

1 本文解决了什么问题?

经典强化学习问题设置考虑的决策过程是平稳的环境。但是,作为人类,我们的目标与环境在我们的一生中会随着我们的经历、行动和内外的驱动力不断变化。本文研究 **能否开发出强化学习算法来应对后者中更现实的问题设置的持续变化。**虽然诸如策略梯度等同轨强化学习算法原则上可以扩展到非平稳环境中,但对于采用回放缓冲区的、更有效的离轨强化学习算法,则无法直接扩展。

通常,平稳性假设很少在更现实的环境中成立,例如在持续学习系统的背景下。 在智能体的生命周期中,可能会受到环境的动态变化和随时间变化的奖励的影响。 例如,在机器人应用中,这种非平稳性表现为不断变化的地形和天气条件。在某些情况下,甚至目标也不一定是固定的:考虑一个辅助机器人来帮助一个偏好随时间逐渐变化的人类。 而且,由于平稳性是许多现有 RL 算法的核心假设,它们不太可能在这些环境中表现良好

至关重要的是,在上述每种情况下,环境都是由未知的时变参数指定的。 这些潜在参数也不是独立同分布的,而是实际上具有相关性但未观察到的动态

在这项工作中,我们将这个问题形式化,并借鉴。在线学习概率推理

原网站

版权声明
本文为[见见大魔王]所创,转载请带上原文链接,感谢
https://songjian.blog.csdn.net/article/details/126914320

随机推荐