命名为“自举聚合多DDPG”,新的算法加速了训练过程并提高了智能人工研究领域的性能。
研究人员在二维机器人和开放式赛车模拟器(TORCS)上测试了他们的算法。在二维机器人手臂游戏上的实验结果表明,聚合策略获得的奖励比子策略获得的奖励高10%-50%,在TORCS上的实验结果表明,聚合策略获得的奖励比子策略获得的奖励高10%-50%新算法可以用56.7%的培训时间学习成功的控制策略。
在连续动作空间上操作的DDPG算法引起了人们的极大关注强化学习。然而,即使对于简单的系统,在贝叶斯信念状态空间内通过动态编程的探索策略也是相当低效的。这通常会导致在学习最优解时标准自举失败政策。
该算法使用集中式体验回放缓冲区来提高探索效率。具有随机初始化的n取m自举以低计算成本产生合理的不确定性估计,有助于训练的收敛。所提出的自举和聚集DDPG可以减少学习时间。
BAMDDPG使每个代理能够使用其他代理遇到的经验。这使得BAMDDPG的子策略的训练更加有效,因为每个代理拥有更宽的视野和更多的环境信息。
这种方法对于序列和迭代训练数据是有效的,其中数据呈现长尾分布,而不是独立同分布数据假设所包含的范数分布。它可以用更少的时间学习最优策略培养具有连续动作和状态空间的任务时间。
这项名为“多重深度确定性策略梯度算法的深度集成强化学习”的研究发表于Hindawi。
(转载:www.idcew.com)