中国研究小组引入新算法来减少机器学习时间|IDC新闻

用户名：密码：

忘记密码？

香港服务器

美国服务器

台湾服务器

亚洲服务器

欧洲服务器

国内服务器

香港服务器，香港服务器租用，香港VPS，美国服务器，美国服务器租用，美国VPS，韩国服务器租用-讯辰网络科技国外服务器


香港服务器
美国服务器
服务器托管
服务器租用

服务器知识导航

服务器托管知识

服务器租用知识

服务器租用价格和交费

机柜问题解答

各地机房带宽线路介绍

服务器安全配置及入侵防范

海外服务器租用知识

国外服务器相关文章

网站优化SEO技术

服务器租用配置教程

美国机房最新优惠活动

美国机房介绍

香港机房介绍

游戏服务器相关新闻

本周热卖服务器

HS高防服务器-1型

HS高防服务器-2型

HS高防服务器-5型

HS高防服务器-6型

HS高防服务器-4型

HS高防服务器-3型

韩国服务器租用KT-6型

韩国服务器租用KT-4型

韩国服务器租用KT-3型

韩国服务器租用KT-2型

韩国服务器租用KT-1型

韩国服务器租用KT-5型

台湾中华电信服务器-3型

台湾中华电信服务器-1型

台湾服务器租用是方电讯电信4核Q

台湾服务器是方电讯租用E7300

台湾是方电讯服务器租用E6300

台湾服务器租用是方电讯E5300

台湾服务器是方电信E2200

台湾中华电信服务器-2型

你的位置：首页 —> 服务器知识 —> IDC新闻 —> 详细正文

中国研究小组引入新算法来减少机器学习时间

(转载：www.idcew.com)

中国科学院深圳高级技术研究所(SIAT)的李惠云教授领导的研究小组介绍了一种简单的深度强化学习(DRL)算法，该算法采用了n中取m自举技术，并聚合了多个深度确定性策略梯度(DDPG)算法结构。

命名为“自举聚合多DDPG”，新的算法加速了训练过程并提高了智能人工研究领域的性能。

研究人员在二维机器人和开放式赛车模拟器(TORCS)上测试了他们的算法。在二维机器人手臂游戏上的实验结果表明，聚合策略获得的奖励比子策略获得的奖励高10%-50%，在TORCS上的实验结果表明，聚合策略获得的奖励比子策略获得的奖励高10%-50%新算法可以用56.7%的培训时间学习成功的控制策略。

在连续动作空间上操作的DDPG算法引起了人们的极大关注强化学习。然而，即使对于简单的系统，在贝叶斯信念状态空间内通过动态编程的探索策略也是相当低效的。这通常会导致在学习最优解时标准自举失败政策。

该算法使用集中式体验回放缓冲区来提高探索效率。具有随机初始化的n取m自举以低计算成本产生合理的不确定性估计，有助于训练的收敛。所提出的自举和聚集DDPG可以减少学习时间。

BAMDDPG使每个代理能够使用其他代理遇到的经验。这使得BAMDDPG的子策略的训练更加有效，因为每个代理拥有更宽的视野和更多的环境信息。

这种方法对于序列和迭代训练数据是有效的，其中数据呈现长尾分布，而不是独立同分布数据假设所包含的范数分布。它可以用更少的时间学习最优策略培养具有连续动作和状态空间的任务时间。

这项名为“多重深度确定性策略梯度算法的深度集成强化学习”的研究发表于Hindawi。

(转载：www.idcew.com)


上一篇：英特尔芯片组中发现不可修复的安全漏洞	下一篇：什么是服务器带宽，未计量带宽和不限带宽又是什么？

关于我们 | 汇款方式 | 联系我们 | 网站地图sitemap | 友情链接 | 营业执照证件

讯辰网络科技 Copyright @ 2001-2012 www.idcew.com All Rights Reserved 鄂ICP备19024917号

联系QQ： 97008092 97008093 EMAIL:idcew@hotmail.com

在线客服