当前位置：首页 > news >正文

自助网站建设技术支持网址外链平台

news 2025/7/19 7:35:29

自助网站建设技术支持,网址外链平台,广州优秀网站设计,wordpress部署教程参考在线阅读文档 github 教程开源框架 JoyRL datawhalechina/joyrl: An easier PyTorch deep reinforcement learning library. (github.com) 策略梯度算法的两种不同的推导版本。强化学习中的一些核心问题，比如优化值的估计、解决探索与利用等问题。从传统强…

参考

在线阅读文档
github 教程
开源框架 JoyRL datawhalechina/joyrl: An easier PyTorch deep reinforcement learning library. (github.com)

策略梯度算法的两种不同的推导版本。
强化学习中的一些核心问题，比如优化值的估计、解决探索与利用等问题。
从传统强化学习到深度强化学习
强化学习算法： DQN、DDPG 以及PPO 等算法。

强化学习是什么、大概能做什么、能够实现什么样的效果.

强化学习发展至今，虽然算法已经有成百上千种样式，但实际上从大类来看要掌握的核心算法并不多，大多数算法都只是在核心算法的基础上做了一些较小的改进。

强化学习是什么？为什么要学习？

试错学习

试错学习主要包括以下几个关键部分：

尝试：采取一系列动作或行为来尝试解决问题或实现目标。
错误：在尝试的过程中可能会出现错误，这些错误可能是环境的不确定性导致的，也可能是自身的不当行为导致的。
结果：每次尝试的后果，无论是积极的还是消极的，都会对下一次尝试产生影响。
学习：通过不断地尝试并出现错误，自身会逐渐积累经验，了解哪些动作或行为会产生有利的结果，从而在下一次尝试中做出更加明智的选择。

试错学习是强化学习中最鲜明的要素之一，但并不是强化学习的全部，强化学习还包含其它的学习形式例如观察学习（对应模仿学习、离线强化学习等技术）。

在学习过程中个人做出的每一次尝试都是是一次决策（decision），每一次决策都会带来相应的后果，好的结果称为奖励（ reward），坏的结果称为惩罚（punishment）或者负的奖励。最终通过一次次的决策来实现目标，这个目标通常是以最大化累积的奖励来呈现的，这个过程就是序列决策（ sequential decision making）过程，而强化学习就是解决序列决策问题的有效方法之一。

换句话说，对于任意问题，只要能够建模成序列决策问题或者带有鲜明的试错学习特征，就可以使用强化学习来解决，并且这是截至目前最为高效的方法之一，这就是要学习强化学习的原因。

强化学习能实现什么样的效果呢？

游戏领域的 AlphaGo, 机器人领域的 NICO 机器人等。都是非常经典的应用。

机器人领域的强化学习成本往往较高，一方面观测环境的状态需要大量的传感器，另一方面则是试错学习带来的实验成本，在训练过程中如果机器人决策稍有失误就有可能导致设备损坏，因此在实际应用中往往需要结合其他的方法来辅助强化学习进行决策。其中最典型的方法之一就是建立一个仿真环境，通过仿真环境来模拟真实环境，这样就可以大大降低实验成本。

除了简单的抓取任务之外，研究者们还在探索将强化学习应用于更加复杂的机器人任务，例如仓储搬运、机器人足球以及自动驾驶等等。

强化学习在金融领域也有所应用，例如股票交易、期货交易、外汇交易等。在股票交易中，我们的目标是通过买卖股票来最大化我们的资产。在这个过程中，我们需要不断地观测当前的股票价格，然后根据当前的价格来决定买入或卖出股票的数量，最后通过股票价格的变化来更新我们的资产。在这个过程中，我们的资产会随着股票价格的变化而变化，这就是奖励或惩罚，每次的买卖就是决策。当然，强化学习的应用还远远不止如此，例如自动驾驶、推荐系统、交通派单、广告投放等等。

强化学习方向概述

多智能体
从数据中学习（从演示中学）：利用数据来辅助学习
- 模仿学习：模仿学习是指在奖励函数难以明确定义或者策略本身就很难学出来的情况下，我们可以通过模仿人类的行为来学习到一个较好的策略
- 逆强化学习：从人类数据中学习奖励函数；通过观察人类的行为来学习到一个奖励函数，然后通过强化学习来学习一个策略。由于需要专家数据，逆强化学习会受到噪声的影响，因此如何从噪声数据中学习到一个较好的奖励函数也是一个难题
- 从人类反馈中学 RLHF reinforcement learning from human feedback.
探索策略：如何在探索和利用间做出平衡；在探索的过程中，智能体会尝试一些未知的动作，从而可能会获得更多的奖励，但同时也可能会遭受到惩罚。而在利用的过程中，智能体会选择已知的动作，从而可能会获得较少的奖励，但同时也可能会遭受较少的惩罚。提高探索的本质也是为了避免局部最优问题，从而提高智能体的鲁棒性
常用方法
- $\epsilon$ -greedy
- 置信上界（upper confidence bound, UCB）
实时环境
- 思路之一是离线强化学习，即在离线训练，将训练好的模型部署到在线环境。按时可能因为离线和在线存在分布漂移，在线表现出现意外。
- word model, 世界模型，在离线环境训练一个世界模型，然后将世界模型部署到在线环境中进行决策。世界模型的思路是将环境分为两个部分，一个是世界模型，另一个是控制器。世界模型的作用是预测下一个状态，而控制器的作用是根据当前的状态来决策动作。这样就可以在离线环境中训练世界模型，然后将世界模型部署到在线环境中进行决策，从而避免了在线环境中的训练过程，提高了效率，同时也避免了在线环境中的安全隐患。但世界模型也存在着一定的问题，例如世界模型的预测误差会导致控制器的决策出错，因此如何提高世界模型的预测精度也是一个难题。
多任务强化学习：智能体往往需要同时解决多个任务，例如机器人需要同时完成抓取、搬运、放置等任务，而不是单一的抓取任务。在这种情况下，如何在多个任务之间做出权衡是一个难题
- 联合训练，思路是将多个任务的奖励进行加权求和，然后通过强化学习来学习一个策略。
- 分层强化学习，思路是将多个任务分为两个层次，一个是高层策略，另一个是低层策略。高层策略的作用是决策当前的任务，而低层策略的作用是决策当前任务的动作。这样就可以通过强化学习来学习高层策略和低层策略，从而解决多任务强化学习的问题。但分层强化学习也存在着一定的问题，例如高层策略的决策可能会导致低层策略的决策出错，因此如何提高高层策略的决策精度也是一个难题。