在人工智能的支持下，新系统使人与机器人的通信更加无缝_专栏

易百纳社区

新的软件系统名为Lang2LTL，标志着对人类和机器人之间更无缝通信的重要贡献

这个黑黄相间的机器人，看起来像一只大狗，站在那里等待指示。当他们来的时候，指令不是用代码写的，而是用简单的英语写的:“访问木制办公桌两次；另外，不要去书架前的木桌。”

机器人从房间里的位置走到附近的书架上，然后在短暂的停顿后，拖着脚步走到指定的木桌子旁，然后离开并返回进行第二次访问，以满足命令。

直到最近，像这样的导航机器人几乎不可能进行这样的练习。大多数当前的导航机器人软件都无法可靠地从英语或任何日常语言转变为机器人能够理解和执行的数学语言。

当软件必须根据复杂或富有表达性的方向进行逻辑跳跃时(例如走到木桌前的书架前)，这就变得更加困难，因为这传统上需要对数千小时的数据进行训练，以便它知道机器人遇到特定类型的命令时应该做什么。

然而，基于人工智能的所谓大型语言模型的进步正在改变这种状况。赋予机器人新的理解和推理能力不仅有助于实现这样的实验，而且让计算机科学家兴奋地将这种成功转移到实验室之外的环境中。

在过去的一年里，布朗大学人类与机器人实验室的研究人员一直在研究一个具有这种潜力的系统，这项研究对人类和机器人之间更无缝的沟通做出了重要贡献，因为人类相互之间有时令人费解的自然沟通方式在向机器人表达时通常会带来问题，往往会导致错误的行动或长时间的计划滞后。

“在论文中，我们特别考虑了在环境中移动的移动机器人，我们想要一种方法，把人们可能会对机器人说的复杂、具体和抽象的英语指令与机器人的行为联系起来。”布朗大学计算机科学教授Stefanie Tellex说。

这篇论文描述了该团队的新系统和软件是如何通过使用人工智能语言模型(类似于ChatGPT等聊天机器人的语言模型)来实现这一目标的，该模型设计了一种创新的方法，可以划分和分解指令，从而消除对训练数据的需求。

它还解释了该软件是如何为导航机器人提供强大的基础工具的，该工具不仅能够接受自然语言命令并生成行为，而且还能够根据简单的指令上下文以及机器人能做什么或不能做什么以及以什么顺序计算机器人可能需要进行的逻辑跳跃。

Tellex表示：“在未来，这将应用于移动机器人在我们的城市中移动，无论是无人机、自动驾驶汽车还是递送包裹的地面车辆。任何时候你需要和机器人对话，告诉它做什么事情，你都可以做到，并给它非常丰富、详细、精确的指令。”

Tellex表示，新系统具有理解表达性和丰富语言的能力，代表了迄今为止发布的最强大的语言理解系统之一，因为它基本上可以在不需要训练数据的情况下开始在机器人中工作。

传统上，如果开发人员想让机器人在波士顿规划并完成路线，例如，他们必须收集不同的城市中给出指令的人的例子，比如“穿过波士顿公园，但要避开青蛙池塘”，这样系统就知道这意味着什么，并可以计算给机器人。如果他们想让机器人在纽约市导航，他们必须重新进行训练。

研究人员在该系统中发现了新的复杂程度，这意味着它可以在任何新环境中运行，而无需经过长时间的训练。

布朗大学 Tellex实验室的博士后研究员Ankit Shah说:“我们基本上是从语言转向机器人的动作。”

为了测试该系统，研究人员使用OpenStreetMap在21个城市进行了软件模拟。仿真结果表明，该系统的准确率为80%。这个数字比其他类似的系统要精确得多，研究人员说，其他系统的准确率只有20%左右，而且只能计算简单的航路点导航，比如从A点到B点。这样的系统也不能考虑约束因素，比如需要避开一个区域，或者在到达A点或B点之前必须再去一个地方。

除了模拟之外，研究人员还在布朗大学校园的室内使用波士顿动力公司的Spot机器人测试了他们的系统。总的来说，这个项目为Tellex在布朗大学的实验室所做的一系列影响深远的研究增加了一笔，这些研究包括让机器人更好地遵循口头指令，提高机器人取物能力的算法，以及帮助机器人像人一样写字的软件。

该研究的主要作者Jason Xingyu是布朗大学与Tellex合作的计算机科学博士生，他说：“这款名为Lang2LTL的新软件的成功在于它的工作方式。为了证明这一点，他举了一个例子，一个用户告诉无人机去主街上的“商店”，但必须先去“银行”。

他解释说，首先，这两个地点被撤出。然后，语言模型开始将这些抽象位置与模型知道的机器人环境中的特定位置相匹配。它还分析这些位置上可用的元数据，例如它们的地址或它们是什么类型的存储，以帮助系统做出决策。

在这种情况下，附近有几家商店，但在主街上只有一家，因此系统知道进行跳转，“商店”是沃尔玛，“银行”是Chase。然后语言模型完成将命令翻译成线性时间逻辑，线性时间逻辑是表示这些命令的数学代码和符号。然后，系统将现在绘制的位置输入到它已经创建的公式中，告诉机器人去A点，但只能在B点之后。

“从本质上讲，我们的系统使用其模块化系统设计和大型语言模型，预先训练了互联网规模的数据，以处理更复杂的定向和基于线性的自然语言命令，这些命令具有不同类型的约束，这是以前机器人系统无法理解的，”Xinyu说。“以前的系统无法处理这个问题，因为它们的设计方式阻碍了它们一次性完成这个过程。”

研究人员已经在考虑这个项目的下一步。

他们计划于11月在项目网站上发布一个基于OpenStreetMaps的模拟系统，用户可以在那里亲自测试这个系统。网络浏览器的演示将允许用户输入自然语言命令，指示模拟中的无人机执行导航命令，让研究人员研究他们的软件如何进行微调。不久之后，该团队希望在软件中添加对象操作功能。

“这项工作是我们未来可以做的很多工作的基础，”Xinyu说。

在人工智能的支持下，新系统使人与机器人的通信更加无缝

V

审核成功

审核失败