当前位置: 首页 > news >正文

中英网站源码下载域名查询平台

中英网站源码下载,域名查询平台,个人网站要不要备案,如何在网站上做抽奖系统强化学习的目标 智能体(Agent)通过与环境(Environment)交互,学习最大化累积奖励(Cumulative Reward)​的策略。 数学抽象 马尔科夫决策过程(MDP) 收益 由于马尔科夫决…

强化学习的目标

智能体(Agent)通过与环境(Environment)交互,学习最大化累积奖励(Cumulative Reward)​的策略。

数学抽象 马尔科夫决策过程(MDP)

收益

由于马尔科夫决策过程是一个序列决策过程,每一时刻的动作不仅会影响当前状态,还会对后续的环境状态产生影响。也就是说,当前时刻能够获得较多奖励的动作从长远来看也许并不是最佳的,而短期来看不太好的动作却也许能在未来带给智能体更多的奖励。因此智能体在决策时不能单单考虑这一时刻的奖励,而应该考虑到动作对未来的长期影响。为此,我们需要在奖励的基础上定义另一个评价指标来度量智能体所能获得的长远利益。在强化学习中,这一评价指标被称为收益

折扣因子

我们需要对未来每一时刻的奖励乘上一个折扣因子,并且越往后,衰减越大。为什么要这样做呢?直觉上来看,时间上越远,存在的不确定越多,对当前时刻的贡献也就越小,因此需要用一个折扣因子来描述不同时刻奖励对当前时刻的贡献程度。

价值

价值实际上也就对应着强化学习中经常提到的Q值。

最终智能体的目标就是学习到一个最优策略,使得智能体在任意状态下的价值最优,定义最佳策略下的动作价值函数为最优价值函数,也就是最优Q值。很显然,当我们已知了最优Q值时,每一状态下对应Q值最大的动作就是最佳动作。

因此,我们可以得出这样一个结论:求解最优策略也就等价于求解最优Q值。

强化学习算法分类

基于价值估计的算法

基于价值估计的算法是对最优Q值进行估计

基于策略优化的强化学习算法

直接对最优策略进行估计

随机性策略:对状态到最优动作概率分布之间的映射进行估计,然后从该概率分布中进行采样得到输出动作。
确定性策略:直接对状态到最优动作之间的映射进行估计。定义一个策略的性能函数作为优化目标,在强化学习中,这个性能函数通常被定义为一定策略下的平均收益。然后我们只需要依据优化目标对策略函数进行梯度上升,最终就可以得到最优策略。策略优化算法的特点是,神经网络的输出即为最优动作,因此这里的动作空间既可以是离散的也可以是连续的。在优化过程中,这里的性能函数通常通过一定的估计方法得到。

策略梯度算法
TRPO(trust region policy optimization, 信任域策略优化))
PPO(proximal policy optimization,邻近策略优化)
算法的训练在 与环境交互采样数据 以及 利用随机梯度上升优化一个替代(surrogate)目标函数 之间交替进行。相较于标准梯度策略算法每次数据采样只能进行一次梯度更新,TRPO与PPO 所使用的目标函数能够利用同一批次数据进行多次梯度更新。PPO 比 TRPO(trust region policy optimization, 信任域策略优化)更为简单。

基于演员-评论家的强化学习算法

结合了价值估计方法与策略优化方法的特点,同时对最优Q值以及最优策略进行学习,最终策略网络的输出即为最优动作。

Actor网络就像是一个执行者,用来输出动作,而Critic网络则对Actor输出的动作进行评价,然后Actor再根据Critic的评价不断地修正自己的策略,Critic则通过贝尔曼方程对自身网络进行迭代更新,最终我们就可以得到一个较好的Actor网络作为智能体最终的策略。

多智能体

首先,之前我们提到马尔科夫决策过程最重要的特征就是环境下一时刻的状态只取决于当前时刻的状态和动作,也就是说环境的状态转移概率是一个确定的值,它保证了环境的平稳变化,使得智能体能够学习出环境的变化规律,从而推理出状态的变化过程。而在多智能体系统中,每个智能体所对应的环境包含了其他智能体的策略,此时智能体状态的改变不再只取决于自身的动作和状态,还会取决于其他智能体的策略,而这些策略在智能体学习的过程中会不断地发生变化,这也就导致了每个智能体的状态转移概率随着时间发生变化,使得环境非平稳变化,马尔科夫特性不再满足,给智能体策略的学习带来了困难。

而在更加实际的情况中,每个智能体只能观测到部分环境状态信息,进一步恶化智能体的学习性能。

一种最直接的解决环境非平稳性和局部可观性的方法就是对所有的智能体采取集中式学习的方法,将它们当做是一个智能体,直接学习所有智能体状态到所有智能体动作之间的映射,但是一方面这种方法需要一个集中式控制中心与智能体之间进行大量的信息交互,另一方面神经网络的输入输出维度会随智能体数目指数增大,难以收敛。

参考

https://zhuanlan.zhihu.com/p/439629465
https://www.zhihu.com/column/c_1440728531004870656
https://zhuanlan.zhihu.com/p/546276372
https://zhuanlan.zhihu.com/p/440451849

http://www.shuangfujiaoyu.com/news/24103.html

相关文章:

  • 求手机网址长春网站优化指导
  • icp备案网站信息填写百度广告客服电话
  • 网站更换上海最近3天疫情情况
  • 万能小偷程序做网站最近一周新闻大事摘抄2022年
  • 修改wordpress后台登录地址福建seo推广方案
  • 网站建设总做总结中文搜索引擎
  • 大悟网站设计b2b有哪些电商平台
  • 网站正在建设中永久百度下载并安装到桌面
  • 北京网站建设备案代理seo排名点击软件
  • 上海知名的网站建设成都全网推广哪家专业
  • 网站日历代码seo排名赚下载
  • 网站域名使用代理口碑营销名词解释
  • 用wordpress搭建完整网站教程搜索引擎优化策略应该包括
  • 网站建设 杭州市萧山区免费网站排名优化软件
  • 网站seo的主要优化内容做个小程序需要花多少钱
  • 武汉企业高端网站建设搜索引擎关键词优化有哪些技巧
  • 应用商店app下载安装最新版软件seo优化排名价格
  • 源码网站git百度开户联系方式
  • 本地电脑如何做网站服务器优秀的营销案例
  • 网站建设市场多大项目推广平台有哪些
  • 哪个网站可以做初一政治试卷sem搜索引擎营销
  • 商城开发网站河南网络推广公司
  • 广州营销型网站建设公司哪家靠谱北京网站制作
  • 站酷网站的比赛网页谁做的如何免费注册一个网站
  • 自己公司做网站商丘网站建设公司
  • wordpress国内访问不了百度产品优化排名软件
  • 东莞阳光网appseo推广公司招商
  • 网站建设及相关流程seo上首页排名
  • 东莞网站建设aj工作室关键词首页排名代做
  • 网站后台维护技能seo搜论坛