一种基于强化学习的无人机覆盖路径和充电规划方法_专栏

易百纳社区

覆盖路径规划场景，agent需要找到一条轨迹，覆盖其视野范围内的所有绿色区域，不飞到障碍物中，并在蓝色着陆区充电

无人驾驶飞行器(uav)，通常被称为无人机，已经被证明在解决广泛的现实问题方面是无价的。例如，它们可以协助人类送货、环境监测、电影制作和搜救任务。

虽然无人机的性能在过去十年左右有了很大的提高，但它们中的许多仍然具有相对较短的电池寿命，因此它们可能在完成任务之前耗尽电力并停止运行。因此，最近机器人领域的许多研究都旨在提高这些系统的电池寿命，同时开发计算技术，使它们能够尽可能有效地处理任务和规划路线。

慕尼黑工业大学(TUM)和加州大学伯克利分校(UC Berkeley)的研究人员一直在尝试设计更好的解决方案来解决普遍存在的潜在研究问题，即覆盖路径规划(CPP)。在arXiv上预发表的一篇论文中，他们介绍了一种新的基于强化学习的工具，可以优化无人机在整个任务中的轨迹，包括在电池电量不足时访问充电站。

“这项研究的根源可以追溯到2016年，当时我们开始研究‘太阳能、长航时无人机’。”进行这项研究的研究人员之一Marco Caccamo说。

“在这项研究开始多年之后，很明显，CPP是使无人机部署到数字农业、搜救任务、监视等多个应用领域的关键组成部分。这是一个复杂的问题，需要考虑许多因素，包括避免碰撞、相机视野和电池寿命。这促使我们研究强化学习作为一种潜在的解决方案来整合所有这些因素。”

在他们之前的工作中，Caccamo和他的同事试图用强化学习来解决CPP问题的简单版本。具体来说，他们考虑了一种情况，其中无人机有电池限制，必须在有限的时间内(即，在电池耗尽之前)完成任务。

在这种情况下，研究人员使用强化学习，允许无人机完成尽可能多的任务，或者在一次电池充电的情况下移动尽可能多的空间。换句话说，机器人不能中断任务给电池充电，然后从之前停止的地方重新开始。

Alberto Sangiovanni-Vincentelli解释说:“此外，智能体必须学习安全约束，即避免碰撞和电池限制，这在大多数情况下会产生安全的轨迹，但不是每次都如此。”“在我们的新论文中，我们希望通过允许agent充电来扩展CPP问题，以便该模型中考虑的无人机可以覆盖更大的空间。此外，我们希望保证agent不会违反安全约束，这在现实场景中是一个明显的要求。”

强化学习方法的一个关键优势是，它往往可以很好地概括不同的案例和情况。这意味着在用强化学习方法训练之后，模型通常可以处理以前没有遇到过的问题和场景。

易百纳社区

这种泛化能力在很大程度上取决于问题呈现给模型的方式。具体来说，深度学习模型应该能够以结构化的方式查看手头的情况，例如以地图的形式。

为了解决他们论文中考虑的新CPP场景，Caccamo，Sangiovanni-Vincentelli和他们的同事开发了一种新的基于强化学习的模型。该模型本质上观察和处理无人机移动的环境（表示为地图），并将其围绕其位置进行中心。

随后，该模型将整个“中心地图”压缩为分辨率较低的全球地图和仅显示机器人附近地区的全分辨率本地地图。然后分析这两张地图，以优化无人机的轨迹并决定其未来的行动。

Mirco Theile说:“通过我们独特的地图处理管道，agent能够提取所需的信息，以解决未见场景的覆盖问题。”此外，为了保证agent不违反安全约束，我们定义了一个安全模型来确定哪些可能的动作是安全的，哪些是不安全的。通过行动掩蔽方法，我们利用这个安全模型，在智能体遇到的每种情况下定义一组安全行动，并让智能体在安全行动中选择最佳行动。”

研究人员在一系列初始测试中评估了他们的新优化工具，发现它的性能明显优于基线轨迹规划方法。值得注意的是，他们的模型很好地概括了不同的目标区域和已知地图，并且还可以处理一些未知地图的场景。

“有充电的CPP问题比没有充电的CPP问题更具挑战性，因为它持续的时间更长，”Theile说。“ agent需要做出长期规划决策，例如决定现在应该覆盖哪些目标区域，以及在返回充电时可以覆盖哪些区域。具有基于地图的观察、基于安全模型的动作掩蔽和其他因素(如折扣因子调度和位置历史)的agent可以做出强有力的长期决策。”

该研究团队引入的基于强化学习的新方法保证了无人机在操作过程中的安全性，因为它只允许agent选择安全的轨迹和动作。同时，它可以提高无人机有效完成任务的能力，在电池电量不足时优化其轨迹到兴趣点、目标位置和充电站。

最近的这项研究可能会激发类似方法的发展，以解决与cpp相关的问题。该团队的代码和软件在GitHub上是公开的，因此世界各地的其他团队可以很快在他们的无人机上实现和测试它。

“这篇论文和我们之前的工作解决了离散网格世界中的CPP问题，”Theile补充道。“对于未来的工作，为了更接近现实世界的应用，我们将研究如何将关键元素、基于地图的观察和安全动作掩蔽引入连续世界。在连续空间中解决这个问题，将使其能够在现实世界的任务中部署，如智能农业或环境监测，我们希望这能产生巨大的影响。”

一种基于强化学习的无人机覆盖路径和充电规划方法

哈哈哈哈

审核成功

审核失败