当前位置: 首页 > news >正文

软件开发网站wordpress本地添加图片不显示图片

软件开发网站,wordpress本地添加图片不显示图片,做健身网站开题报告,用什么做网站PPO 近端策略优化算法 PPO 概率比率裁剪 演员-评论家算法演员-评论家算法#xff1a;多智能体强化学习核心框架概率比率裁剪#xff1a;逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪 演员-评论家算法 论文链接#xff1a;https://arxiv.org… PPO 近端策略优化算法 PPO 概率比率裁剪 演员-评论家算法演员-评论家算法多智能体强化学习核心框架概率比率裁剪逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪 演员-评论家算法 论文链接https://arxiv.org/abs/1707.06347 OpenAI 提出 PPO 旨在解决一些在策略梯度方法中常见的问题特别是与训练稳定性和样本效率有关的问题。 能在提高学习效率和保持训练稳定性之间找到平衡。 策略梯度方法的问题 策略更新过快 在传统的策略梯度方法中如果每次更新都大幅度改变策略可能会导致学习过程变得非常不稳定。 这种大幅更新可能会使得智能体忘记之前有效的策略或者探索到低效的行为区域。 数据利用率低 许多强化学习算法特别是那些基于样本的算法需要大量的数据才能学到有效的策略。 PPO试图通过更有效地使用数据来缓解这个问题使得从每个数据样本中学到更多信息。 训练周期长 由于数据利用率低传统的强化学习算法通常需要很长的训练周期才能收敛到一个好的策略。 PPO通过改进学习算法来减少所需的训练时间。 PPO算法在演员-评论家的框架基础上使用了 概率比率裁剪 技巧来控制策略更新的幅度以确保训练的稳定性和性能。 演员-评论家算法多智能体强化学习核心框架 请猛击演员-评论家算法多智能体强化学习核心框架 概率比率裁剪逐步进行变化的方法 想象你有两个不同的蛋糕配方这个比率就像是告诉你使用新配方做蛋糕的可能性与旧配方相比有多大的变化。 如果我们的新策略和旧策略差别太大那就像是突然完全改变蛋糕的配方可能会做出一个很不一样的蛋糕我们不确定它会好吃还是不好吃。 所以PPO通过计算概率比率来确保新策略不会偏离旧策略太远。 在每次策略更新时它计算新策略和旧策略之间的比率并通过限制这个比率的大小来裁剪更新幅度以防止过大的改变。 解决如何安全地逐步进行变化控制变化的方法。 具体请见目标函数的设计。 PPO 目标函数的设计 在测试中PPO 基本在每个任务都是第一梯队。 那我们说一下 PPO 到底做了什么居然比 A2C 另一种演员-评论家的改进算法还要好。 近端主要体现在其目标函数的设计上。 在PPO近端策略优化算法中结合使用重要性采样和KL散度实现了主要的目标。 重要性采样 探索与利用的平衡重要性采样帮助算法判断新策略新动作与旧策略旧动作相比的效果。如果新策略比旧的好算法会更倾向于采用新策略这是“利用”。但同时算法也会尝试一些不同的策略这是“探索”以找到可能更好的解决方案。渐进式更新通过重要性采样PPO能够逐渐、小心地改进策略而不是一次性做出巨大的改变。这样的逐步改进有助于算法稳定地学习和适应新策略。 KL散度 防止过度探索KL散度用于确保新策略不会偏离旧策略太远。这个约束防止了算法在探索新策略时过度激进从而避免了可能导致性能下降的大幅度策略变动。维持学习的稳定性通过限制新旧策略之间的差异KL散度有助于保持学习过程的稳定性。这种稳定性对于复杂的学习任务特别重要因为它减少了学习过程中的不确定性和波动。 重要性采样 你正在玩一个跳舞游戏。 在这个游戏里你有一系列的舞蹈动作可以选择。 刚开始时你只会一些基础的动作这是你的“旧策略”。 现在你学会了一些新的、酷炫的舞蹈动作这是你的“新策略”。 在这个游戏里你想要知道这些新动作是否真的比旧的好。 但是你不能一次就完全改变你的舞蹈风格因为这样你可能会跳得很差。 所以你需要一种方法来慢慢地、安全地加入新动作。 使用重要性采样你可以基于旧动作的经验来估计新动作的效果。 比如如果新动作只是在旧动作的基础上做了一些小改动比如多举了一下手你可以推测这个新动作会有类似的效果。 通过比较你可以决定哪些新动作真的相似值得加入到你的舞蹈里同时确保你的整体舞蹈还是很流畅。 不仅链接了新旧动作还是渐进式更新。 在这个过程中你不需要每次都完全重新学习动作。 相反你只是在旧动作的基础上做一些小的调整。 这样你可以逐渐地、稳步地改进你的动作而不是一下子完全改变。 KL散度 你的舞蹈老师给了你一个规则虽然可以尝试新动作但是不能让你的舞蹈风格变化太大否则会失去控制可能跳得一团糟。 KL散度就像是舞蹈老师的一条规则它告诉你新舞蹈和旧舞蹈之间的差别。 如果差别太大就意味着你可能偏离了舞蹈的基本风格太远需要调整一下。 这样你就可以在尝试新动作的同时保持你的舞蹈整体风格和质量。 仅仅使用重要性采样可能会导致策略变化过大特别是在新策略与旧策略差异显著时。 KL散度提供了一种衡量策略之间差异的方法。 通过限制新旧策略之间的KL散度PPO能够保证学习过程的连续性和平滑性减少策略更新的剧烈波动。 数学公式 J P P O θ ′ ( θ ) J θ ′ ( θ ) − β K L ( θ , θ ′ ) ⏟ Regularization E ( s t , a t ) ∼ π θ ′ [ p θ ( a t ∣ s t ) p θ ′ ( a t ∣ s t ) A θ ′ ( s t , a t ) ] − β K L ( θ , θ ′ ) \begin{aligned} J_{\mathrm{PPO}}^{\theta^{\prime}}(\theta) J^{\theta^{\prime}}(\theta)-\underbrace{\beta\mathrm{KL}(\theta,\theta^{\prime})}_{\text{Regularization}} \\ \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta^{\prime}}}\left[\frac{p_\theta\left(a_t\mid s_t\right)}{p_{\theta^{\prime}}\left(a_t\mid s_t\right)}A^{\theta^{\prime}}\left(s_t,a_t\right)\right]-\beta\mathrm{KL}(\theta,\theta^{\prime}) \end{aligned} JPPOθ′​(θ)​Jθ′(θ)−Regularization βKL(θ,θ′)​​E(st​,at​)∼πθ′​​[pθ′​(at​∣st​)pθ​(at​∣st​)​Aθ′(st​,at​)]−βKL(θ,θ′)​ 这个公式是近端策略优化PPO算法中的一个重要部分它包含了重要性采样和KL散度。 重要性采样 公式的这部分 p θ ( a t ∣ s t ) p θ ′ ( a t ∣ s t ) \frac{p_\theta(a_t | s_t)}{p_{\theta}(a_t | s_t)} pθ′​(at​∣st​)pθ​(at​∣st​)​表示的是重要性采样比率。这里 p θ ′ ( a t ∣ s t ) p_{\theta}(a_t | s_t) pθ′​(at​∣st​) 是旧策略即上一次更新前的策略在状态(s_t)下选择动作(a_t)的概率。 p θ ( a t ∣ s t ) p_\theta(a_t | s_t) pθ​(at​∣st​) 是新策略即当前更新的策略在相同状态下选择同一动作的概率。通过这个比率我们可以量化新旧策略之间在选择特定动作上的差异。 优势函数 A θ ′ ( s t , a t ) A^{\theta}(s_t, a_t) Aθ′(st​,at​) 公式中的 A θ ′ ( s t , a t ) A^{\theta}(s_t, a_t) Aθ′(st​,at​) 是优势函数它评估在特定状态下采取某个动作相对于平均情况的好坏。优势函数用于量化一个特定动作比平均情况要好或坏多少。 期望值 E \mathbb{E} E E ( s t , a t ) ∼ π θ ′ [ … ] \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta}}[…] E(st​,at​)∼πθ′​​[…] 表示对于由旧策略 π θ ′ \pi_{\theta} πθ′​ 生成的状态和动作的期望值。这意味着我们在计算这个公式时考虑的是在旧策略下可能发生的所有状态和动作组合。 KL散度 公式中的 K L ( θ , θ ′ ) \mathrm{KL}(\theta, \theta) KL(θ,θ′) 代表KL散度它是一种衡量两个概率分布差异的方法。在这里它用来衡量新策略和旧策略之间的差异。 β \beta β是一个调节参数它控制了我们对策略变化的惩罚强度。KL散度越大意味着新旧策略差异越大。 整体公式 整个公式的第一部分 E ( s t , a t ) ∼ π θ ′ [ … ] \mathbb{E}_{(s_t,a_t)\sim\pi_{\theta}}[…] E(st​,at​)∼πθ′​​[…]计算的是在旧策略下采用新策略能带来多少优势。第二部分 − β K L ( θ , θ ′ ) -\beta\mathrm{KL}(\theta, \theta) −βKL(θ,θ′)则是在控制新策略不要偏离旧策略太远的约束。 所以这个公式基本上是在做两件事 一方面它试图找到一个新策略使得在旧策略下的表现更好另一方面它确保新策略不会与旧策略差异太大从而保持学习的稳定性。
http://www.ho-use.cn/article/10814306.html

相关文章:

  • 网站 后台 设计企业seo关键词优化
  • 做网站卖什么软件免费建设微网站制作
  • 关于公司网站开发的事项产品设计品牌有哪些
  • 网站三网合一广告设计有创意的名字
  • 怎么给婚恋网站做情感分析珠宝商城网站模板
  • 南通市经济开发区建设局网站中国风网站表现
  • 中国十大热门网站排名大宗现货交易平台
  • 完美建设工程有限公司网站用vs做网站的教程
  • 通辽网站seowordpress嵌入淘宝商品
  • 怎样破解网站后台密码wordpress自定义字段框架
  • 北京pk10网站建设上海公司法人落户条件
  • 移动广告公司网站建设wordpress 网址 显示
  • 房产网网站wordpress有一个100的缩略图
  • 成都建立网站的公司网站wordpress短视频模版
  • 怎么做传奇网站重庆物流公司网站建设
  • 如何快速建立一个网站涉县移动网站建设公司
  • 网站用excel做数据库番禺区保安服务公司
  • 中国建设网站官方网站做片头网站
  • 西安做网站的公司维护怎么把自己的网站放到百度搜索上
  • 深圳做微信网站解析网站咋做的
  • 先学php还是网站建设邮箱网站怎么做
  • 网站前台山东新闻联播
  • 备案成功后怎么建设网站五台建设局网站
  • 哪个网站可以做问卷调查网站嵌套代码
  • 访问一个网站的过程WordPress文化衫
  • 大人和孩做爰网站互联网行业还能支撑多久
  • 微信公众号和网站建设方案模板建站和定制建站
  • 我想创业做网站形容网站页面做的好的词语
  • 厦门免费建立企业网站天津市住房和城乡建设局网站
  • 文档怎么做网站链接淘宝联盟优惠券网站建设