音响网站模板,网站外部链接建设分析,网站等保建设,如何自己开发一款app导读#xff1a; 由于环境中静态障碍物和动态障碍物的约束#xff0c;机器人在密集且交互复杂的人群中导航#xff0c;往往面临碰撞与延迟等安全与效率问题。举个简单的例子#xff0c;商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作#xff0c;因为它不… 导读 由于环境中静态障碍物和动态障碍物的约束机器人在密集且交互复杂的人群中导航往往面临碰撞与延迟等安全与效率问题。举个简单的例子商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作因为它不具备在拥挤人群中穿行的能力。 为应对上述挑战研究者提出一套基于图结构的全新方案将人、机器人及各类障碍物在时空维度上进行异质化建模构建出名为“异质时空图”st-graph的统一表达框架。基于此结构运用深度强化学习训练导航策略并通过注意力机制与循环网络动态捕捉场景变化关注关键交互因素从而显著提升对碰撞的规避能力。 多轮仿真与真实实验表明该方法在复杂导航任务中不仅成功率和效率优于SOTA方法而且在改变人群密度和障碍物数量时也能保持良好的零样本泛化能力。同时本研究在大量实际环境中进行验证结果证明其在安全性和整体表现方面均达到了新的水平。该方法的实时和部署使得服务机器人即便是在“上班早高峰”这样的拥挤场景中也能够顺利的执行任务。 ©️【深蓝AI】编译
论⽂题目HEIGHT: HEterogeneous Interaction GrapH Transformer for Robot Navigation in Crowded and Constrained Environments
论文作者Shuijing Liu, Haochen Xia, Fatemeh Cheraghi Pouria, Kaiwen Hong, Neeloy Chakraborty, and Katherine Driggs-Campbell
论文地址https://arxiv.org/abs/2411.12150 1.引入
随着机器人在以人为中心的环境中应用的日益普及如最后一公里配送和家庭机器人等机器人能够在人群中安全导航变得越来越重要。例如图1展示了一个导航场景其中包含了大量微妙的互动障碍物对路径的影响是单向的即对机器人和人类的路径有影响而人类和机器人之间的互动则是相互作用的。在这些互动中人类可能会以不同的方式反应于其他人类和机器人。为了完成导航任务机器人直接参与到近距离的某些互动中同时又受到其他互动的间接影响。这些互动是异质的、动态的并且很难推测出来这使得在这种环境中进行导航变得十分具有挑战性。
为了应对这些挑战过去的研究探索了多种机器人群体导航方法。然而这些方法通常存在以下两种局限一是它们假设机器人在没有障碍物的开放空间中移动而现实世界中障碍物是很常见的二是它们没有区分不同类型的互动导致机器人难以采取适应性策略避免与人类和障碍物的碰撞。
本研究的目标是让机器人能够在导航时不与人类和障碍物发生碰撞。为了解决这个问题本研究提出了一个框架利用了在拥挤和受限环境中互动的异质性。首先本研究将环境分为人类和障碍物的表示并将它们分别处理后输入到基于强化学习RL的导航流程中。然后本研究将场景分解为异质的时空图st-graph通过不同类型的边来表示机器人、人类和障碍物之间的不同互动正如图1中不同颜色的箭头所示。最后本研究将这个异质时空图转换为一个名为HEIGHTHEterogeneous Interaction GrapH Transformer的机器人策略网络包含多个模块来参数化各种时空互动。具体来说本研究使用两个独立的多头注意力网络来处理机器人与人类RH以及人类与人类HH之间的互动。通过注意力网络机器人可以更多地关注重要的互动从而在人数增多、图变得更加复杂的情况下保持较低的碰撞率。此外本研究还使用多层感知机MLP来建模单向的障碍物-代理互动并采用递归网络来捕捉场景的时间演变。面对快速变化的场景图1下方HEIGHT能够通过时空捕捉不同组件之间的异质互动从而使机器人避免碰撞并高效地接近目标。
这篇文章扩展了本研究之前关于注意力图网络的贡献。尽管本研究之前的工作集中在开放空间中的群体导航但这篇文章引入了静态障碍物和约束导致了场景表示和网络架构的重大修改。为配合这些方法的变化本研究进行了新的仿真和硬件实验并增加了新的基准比较。总的来说这篇文章的主要贡献如下 本研究提出了一种拥挤和受限环境的输入表示区别对待人类和障碍物。这种分离的场景表示使得本研究能够在框架的其他部分注入更多结构。 本研究提出了一种结构化的图表示称为异质时空图st-graph用于有效地建模所有代理和实体之间的配对互动。 从异质时空图中本研究采用一种原则性的方法推导出HEIGHT一个基于变换器的机器人导航策略网络具有不同的模块来推理所有类型的时空互动。 仿真实验中在密集人群和障碍物的情况下本研究的方法在未见过的障碍物布局中超越了之前的最先进方法。此外本研究的方法在不同的人类和障碍物密度的分布外环境中表现出了更好的泛化能力。 本研究成功地将机器人策略从低保真度仿真环境转移到具有挑战性的真实世界拥挤环境中且无需进行微调。 ▲图1机器人避障情况分类©️【深蓝AI】编译 ▲图2机器人避障情况分类©️【深蓝AI】编译
2.具体方法与实现
图2所示为本文的核心pipeline首先a在训练和测试的每个时间步仿真器提供一个奖励和以下环境观察障碍物点云、机器人状态、以及人类状态和掩码。这些观察作为输入传递给HEIGHTHEIGHT输出一个机器人动作以最大化未来期望回报。仿真器执行所有代理的动作循环继续。随后b现实世界中的测试循环与仿真器类似唯一不同的是用于获取观察的感知模块不同并且没有奖励。可以看到本文的核心是一个Sim2Real的过程在仿真器中进行训练随后在真实环境中实现实施和部署。下面笔者将对本文的各个细分模块进行介绍。 ▲图3核心网络架构图©️【深蓝AI】编译
2.1 异质时空图
代理和实体之间微妙而高度动态的互动是使群体导航变得困难的重要因素。为了以结构化的方式建模这些互动本研究将导航场景公式化为一个异质时空图。在图3a中在每个时间本研究的异质时空图由一组节点和一组边组成。节点包括检测到的人类和机器人。此外障碍物节点代表所有障碍物的点云。在每个时间连接不同节点的空间边表示节点之间的空间互动。不同的空间互动对机器人决策的影响不同。具体来说虽然本研究可以控制机器人但无法控制人类因此机器人与人类RH之间的互动有直接影响而人类与人类HH之间的互动对机器人动作的影响是间接的。例如作为间接影响如果人类 A 强行让人类 B 转向机器人的前方那么机器人必须根据 A 和 B 之间的互动做出反应。此外由于代理是动态的而障碍物是静态的代理之间的互动是相互的而静态障碍物对代理的影响是单向的。因此本研究将空间边分为三种类型人类与人类边HH图3中的蓝色、障碍物-代理边OA橙色和机器人-人类边RH红色。这三种边允许本研究将空间互动分解为 HH、OA 和 RH 函数。每个函数由一个具有可学习参数的神经网络来参数化。 ▲图4环境人体与障碍物分离图示©️【深蓝AI】编译
与以往忽略某些边的工作相比本研究的方法允许机器人推理所有在拥挤和受限环境中存在的空间互动。由于所有代理的运动会导致每个人类的可见性动态变化节点集和边集以及互动函数的参数可能相应地发生变化。为此本研究使用图3(a)中紫色框所示的另一个函数将不同时间步的图融合起来。这个时间函数连接相邻时间步的图从而克服了反应性策略的短视性并使机器人能够进行长期决策。
为了减少参数的数量图3(a)中相同类型的边共享相同的函数参数。这个参数共享对于图的可扩展性非常重要因为当人类数量变化时参数的数量保持不变。 2.2 HEIGHT架构
在图3b中本研究从异质时空图中推导出了本研究的网络架构。本研究将 HH 和 RH 函数表示为具有注意力机制的前馈网络分别称为和。本研究将 OA 函数表示为一个带有连接的多层感知机MLP将时间函数表示为门控递归单元GRU。本研究使用 W 和 f 来表示可训练的权重和全连接层。代理之间的注意力注意力模块为所有连接到机器人或人类节点的边分配权重使得节点可以关注重要的边或互动。这两个注意力网络类似于带有填充掩码的缩放点积注意力它使用查询 Q 和键 K 来计算注意力得分并将归一化的得分应用于值 V从而得到加权值 v。 其中 d 是查询和键的维度作为缩放因子。掩码 M 用于处理每个时间步检测到的人类数量变化正如本研究将在下文中扩展的那样。人类-人类注意力为了学习每个 HH 边对机器人在时间 t 的决策的重要性本研究首先使用一个 HH 注意力网络按人类之间的自注意力对每个观察到的人类进行加权。在 HH 注意力中当前的人类状态被拼接并通过具有权重、和的线性层传递以获得、和其中是 HH 注意力的注意力大小。 其中、和分别是第 i 个人类的查询嵌入、键嵌入和值嵌入。该过程用于指示每个人类的可见性使得机器人可以对检测到的每个人进行“注意”这个过程可以提升机器人对于环境中人群的感知能力同时更契合本文对人和环境进行分离的主题。
2.3 训练过程
本研究在仿真器中使用近端策略优化PPO训练整个网络如图2(a)所示。在每个时间步 t仿真器提供所有构成 st 的状态信息这些信息被输入到 HEIGHT 网络中。网络输出状态 V(st) 的估计值和机器人动作 π(at|st) 的对数概率二者用于计算 PPO 损失并更新网络中的参数。在训练过程中机器人从动作分布 π(at|st) 中采样动作。在测试过程中机器人选择具有最高概率的动作 at。机器人动作 at 被输入到仿真器中以计算下一个状态 st1然后循环继续进行。没有任何监督学习本研究的方法不受专家演示性能的限制。然而为了提高低训练数据效率这一强化学习固有问题HEIGHT也可以通过模仿学习和强化学习的结合进行训练本文主要的训练环境和真实环境如图5所示。通过以上的一种结构化和原则性的方法来设计机器人策略网络用于在受限环境中的群体导航可以更好的提升机器人在拥挤环境中的导航避障性能。通过将复杂的场景分解为独立的组件本研究将复杂问题拆解为更小的函数这些函数用于学习相应的函数参数。通过结合上述所有组件端到端可训练的 HEIGHT 使得机器人能够对所有配对互动进行时空推理从而实现更好的导航性能。 ▲图5Sim2Real训练环境与实际环境展示©️【深蓝AI】编译
3.实验
本文作为一篇TRO的文章在实验部分设计的非常精细同时做了非常充分的对比实验以及仿真真实实验体现了本文极大地工作量首先图6所示为本文的数值实验从结果不难看出本文方法的优异性能够在多个环境中取得不错的效果均领先于当前的SOTA。 ▲图6数值实验©️【深蓝AI】编译
接下来映入眼帘的是避障路径规划的模拟实验可以看到作者进行了大量的case study并且于当前的方法进行了非常多的对比值得关注的是机器人与人的碰撞标记为Human collision以及机器人运动的时间在左上角体现。可以看到本文方法在避障时间上用时最短同时避免了所有的人体碰撞 ▲图7避障路径规划模拟实验©️【深蓝AI】编译
随后作者在真实机器人平台进行了算法部署并且在办公室和大厅两个场景进了真实的机器人避障实验办公室场景是比较典型的结构化场景在这个场景中机器人的路径受到限制一般只有狭窄的走廊能够用于避障从图中可见机器人在这样的环境中即便面对川流不息的人群也能够实现非常准确的避障和导航。大厅则是比较开放的场景这个场景中机器人往往有多条路径能够选择但是多样的选择也导致了机器人的迂回问题有时候机器人会绕一大圈为了避开障碍物但是从图中能够看到本文算法非常好的解决了这个问题机器人在开放的环境中也选择了一条非常高效的路径最终导航到了目的地。 ▲图8真实环境机器人避障实验©️【深蓝AI】编译
总结
在本文中作者提出了HEIGHT一个用于动态和受限环境下自主机器人导航的新型结构化图网络架构。作者的方法利用了受限群体导航问题的图形化特性和可分解性提出了以下两个关键创新。首先作者将人类和障碍物的表示分别进行拆分和处理。这使得机器人能够有效地推理人类和障碍物的不同几何形状和动态特性提升其在复杂环境中的导航能力。其次作者提出了一种异质时空图st-graph用以捕捉机器人、人类和障碍物之间的多种互动类型。将场景分解为异质时空图有助于指导HEIGHT网络的设计采用注意力机制。注意力机制使机器人能够推理每种配对互动的相对重要性从而在导航过程中实现自适应和敏捷的决策。
作者的仿真实验表明HEIGHT模型在碰撞避免和导航效率方面优于传统的基于模型的方法和其他基于学习的方法。HEIGHT模型在不同人类和障碍物密度的环境中也表现出了更好的泛化能力。在真实世界的环境中HEIGHT能够无缝地从仿真转移到日常室内导航场景中无需额外训练展示了其鲁棒性和克服仿真与现实之间差距的能力。
作者的研究表明推理微妙的时空互动是实现平稳人机交互的关键步骤。此外作者的工作强调了揭示复杂问题内在结构的重要性并将这些结构注入学习框架中以一种有原则的方式解决问题。