一种可以提高机器人抓取物体能力的模型_专栏

易百纳社区

拟议网络的框架。给定 RGB-D 输入图像，编码器提取特征。通过多维注意力瓶颈进一步细化编码器的输出特征图F_e，将残差多头自注意力（R-MHSA）、交叉幅值注意（CAA）和原始补偿的输出串联成通道，然后通过通道注意力和随机块进行调整，以获得更好的特征表示F_b。然后进行卷积操作，将特征图输入解码器，解码器采用三个级联孪生反卷积 TDconv-1、TDconv-2 和 TDconv-3 进行抓取预测 G

在现实世界中完成任务和任务时，理想情况下，机器人应该能够有效地抓取各种形状和成分的物体。然而，到目前为止，大多数机器人只能抓取特定类型的物体。

中国科学院和北京大学的研究人员最近开发了一种新的机器学习模型，可以帮助提高机器人的抓取能力。该模型发表在IEEE Transactions on Circuits and Systems for Video Technology中，专门设计用于预测机器人周围物体的抓取情况，以便它们能够设计出抓取这些物体的最佳策略。

“在智能制造、人机交互和家庭服务等现实世界应用中，机器人抓取变得越来越重要，”进行这项研究的研究人员之一Junzhi Yu告诉Tech Xplore。“抓取检测是机器人抓取的关键步骤，需要找到目标物体的最佳抓取。主流的编码器-解码器抓取检测解决方案在准确性和效率方面很有吸引力，但由于解码器中卷积结果的不均匀重叠会产生棋盘失真，因此它们仍然有限。此外，特征表示往往是不够的。

Yu和他的同事最近工作的主要目标是开发一个模型，以克服现有抓取检测框架的局限性。为此，他们创建了一个基于双胞胎反卷积和多维注意力的像素级抓取检测方法，这两种技术通常用于计算机视觉应用。

易百纳社区

孪生反卷积的结构。F_in∈R^（c_in×h_in×w_in ）和 F_out∈R^（C_out 〖×H〗_out×W_out ）分别表示输入特征图和输出特征图，其中c_in、h_in、w_in和C_out、H_out、W_out分别表示F_in、F_out对应的通道号、高度和宽度。孪生反卷积中有两个分支：原始分支和孪生分支，其中前者是标准转置卷积，后者用于计算与原始分支对应的重叠度，以去除棋盘伪影。孪生分支的输入是一个矩阵 Ones∈R^（1×h_in×w_in ），所有条目为 1，其空间大小与原始分支的输入特征映射F_in的空间大小相同。此外，孪生分支的核与原始分支的核具有相同的空间大小（K_h×K_w），其所有条目都设置为 1⁄m， m=K_h×K_w。通过孪生分支中的转置卷积，计算出对应于原始分支输出F_t∈R^（c_in×H_out×W_out）的所有空间位置的重叠度矩阵M_w∈R^（1×H_out×W_out）。然后，在F_t和M_w的每个通道之间执行逐元素划分操作。然后逐点卷积 Conv1×1，得到孪生反卷积的最终输出F_out

他们的方法旨在消除所谓的“棋盘伪影”，即在人工神经网络生成的图像中经常观察到的奇怪的棋盘状图案。此外，研究人员还加强了他们的模型优化图像中特定特征的能力。

“所提出的像素级抓取检测网络由编码器、多维注意力瓶颈和基于双反卷积的解码器组成，”Yu 解释说。“给定输入图像，通过编码器执行特征提取，并通过我们的瓶颈模块进一步细化获得的特征图，该模块集成了残余多头自注意力（R-MHSA），交叉幅度注意（CAA）和原始补偿，以更好地关注感兴趣的区域。

团队瓶颈模块的三个组件产生三个不同的输出，这些输出在通道中连接并进一步调整以改善特征的表示。然后将生成的、经过改进的“特征图”馈送到模型的解码器（即，将特征图上采样为所需输出的模型）。该解码器通过执行三个所谓的级联孪生反卷积（对特征图进行上采样的过程）来最终预测与输入图像对应的抓取。

“通过我们的瓶颈模块，特征之间的内在关系被挖掘出来，特征从空间和通道维度有效地进行了微调，”Yu说。“特别是，孪生反卷积的引入通过在原始转置卷积分支上添加孪生分支来提供更好的上采样。因此，棋盘格工件的挑战得到了解决。

易百纳社区

实际场景中的抓取检测。（a） RGB 图像。（b）基于掩模R-CNN和背景抑制的有关物体的检测结果。（c）掌握检测结果。在实验场景中，涉及具有四类（瓶子、香蕉、苹果和橙子）的物体

研究人员开发的方法的一个显着优点是它使用了孪生反卷积，通过它将孪生分支引入原始转置卷积分支，从而提高了模型的原始输出。此方法允许模型从输出中删除不需要的棋盘图案。

“应该注意的是，棋盘伪影源于不同位置卷积结果的不均匀重叠，”Yu说。“在这里，在原始转置卷积分支上平行引入一个孪生分支，以测量不均匀的重叠。更具体地说，孪生分支计算位置之间的相对重叠差异，并利用生成的重叠度矩阵对原始转置卷积的特征图进行重新加权。

在最初的测试中，新的像素级抓取检测方法取得了非常有希望的结果，因为它被发现可以平滑模型的原始输出并消除棋盘伪影。因此，它实现了很高的抓取检测精度。

作为他们研究的一部分，Yu和他的同事还能够将他们的方法扩展到需要像素检测的其他任务。除了可能提高现有和新开发的机器人的抓取技能外，它们的模型还可以很快应用于其他计算机视觉问题。

“在我们的下一个工作中，我们计划将所提出的方法与实际机器人系统中的实例分割相结合，以便更好地进行抓取预测，”Yu补充道。“例如，实例分割可用于生成有关对象配置文件和位置的有价值的信息，这些信息被馈送到解码器的双反卷积中，以进一步提高网络性能。

一种可以提高机器人抓取物体能力的模型

艾

审核成功

审核失败