一文入门 深度强化学习
Python与算法社区
共 3681字,需浏览 8分钟
· 2021-10-22
状态、奖励和行动
「状态-动作-奖励」的每个循环都称为一个步骤。强化学习系统持续循环迭代,直到达到所需状态或达到最大步数。这一系列的步骤称为一个「情节」或者「集」。在每一个情节开始时,环境设置为初始状态,代理的奖励重置为零。
为了更好地理解强化学习的组成部分,让我们考虑几个例子。
基于模型的方法为代理提供了「远见」,减小了对手动收集数据的依赖。这在收集训练数据和经验,既昂贵又缓慢的应用中非常有利(例如,机器人和自动驾驶汽车)。
到目前为止,我们还没有谈到深度神经网络。事实上,你可以以任何你想要的方式实现上述所有算法。例如,Q-learning 是一种经典的强化学习算法,它在代理与环境交互时创建了一个状态-动作-奖励值表。当你处理状态和操作数量非常少的简单环境时,此类方法非常有效。
扫码关注我的视频号:程序员zhenguo
评论