Press "Enter" to skip to content

机械臂识别抓取笔记(基于高斯抓取表示的轻量级卷积神经网络用于机器人抓取检测)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for Robotic Grasping Detection

 

(基于高斯抓取表示的轻量级卷积神经网络用于机器人抓取检测)

 

1 文章概况:

文章利用 2-D Guassian核 对训练样本进行编码,以强调中心点位置具有最高的抓取置信度得分。
在基于Guassian的抓取表示的基础上,开发了一种 轻量级的机器人抓取姿态估计生成体系结构。
参考人类视觉系统中的感受野结构,在 bottleneck层结合了残差块和感受野块模块 ,以增强特征识别性和鲁棒性。
为了减少采样过程中的信息丢失 ,在解码过程中融合了低层特征和深度特征,并在融合过程中使用 由像素注意网络和通道注意网络组成的多维注意网络 来 抑制冗余特征和突出有意义的特征。

2 其他抓取方法

 

对于 二维平面机器人抓取 ,抓取约束在一个方向上,方法可分为 基于方向矩形的抓取表示方法 和 基于接触点的抓取表示方法。

2.1基于有向矩形的抓取表示方法

基于面向矩形抓取配置,深度学习方法可以成功应用于抓取检测任务,主要包括 基于分类的方法 、 基于回归的方法 和 基于检测的方法。

2.1.1 基于分类的方法:

将夹持器框与抓取角度分为不同类别进行分类预测
可以使用两个深度网络的两步级联结构,通过采样抓取位置和相邻图像块来估计抓取建议;通过将角度分为18个抓取角度来预测抓取方向。

2.1.2 基于回归的方法:

通过训练模型直接预测位置和方向的抓取参数。

2.1.3 基于检测的方法:

许多基于检测的方法都参考了目标检测的一些关键思想,例如锚定框。基于这些锚框的先验知识,简化了抓取参数的回归问题。

2.2基于接触点的抓取表示方法

基于有向矩形的抓取表示在机器人抓取检测任务中有着广泛的应用。但,就实际的板材抓取任务而言,抓取器不需要太多的信息来执行抓取动作。
因此提出一种新的简化的基于接触点的抓取表示法,它由抓取质量、中心点、方向角和抓取宽度组成。

3 基于高斯的抓取系统原理

 

机器人抓取系统通常由 机器人手臂 、 感知传感器 、 抓取物体 和 工作空间 组成。为了成功地完成抓取任务,不仅需要获取物体的 抓取姿态 ,还需要 规划和控制子系统 。

在 抓取检测部分 ,考虑将机械手限制到工作空间的法线方向,从而使其成为2D空间中的感知目标。
矩形框 是目标检测中常用的方法,但它 不适合抓取检测任务 。由于夹持器的尺寸通常是一个已知变量,因此有一种简化表示法,用于高精度实时机器人抓取。三维姿势的新抓取表示定义为:
g={p, ϕ, w, q}
笛卡尔坐标系(直角坐标系 和斜坐标系的统称)中的中心点位置为p=(x,y,z)。
ϕ 和 w 分别测量夹具围绕轴的旋转角度以及夹具的打开和关闭距离。
q 作为衡量抓取成功概率的尺度。(置信度)
二维空间中新抓取表示的定义可以描述为:

p帽 = (u, v) 表示图像坐标中的中心点; ϕ 帽 代表相机坐标系中的方向; w帽和q帽 仍然分别表示抓取器的打开和关闭距离以及抓取置信度。
当我们知道抓取系统的校准结果时,抓取姿态 g帽 可以通过矩阵运算转换到世界坐标系g:

T RC 和T CI 分别将 相机坐标系 的变换矩阵表示到 世界坐标系 ,将 二维图像空间 表示在 相机坐标系 下。
图像空间中的抓取映射表示为:
G={Φ, W, Q} ∈R 3×W×H

其中,抓取特征图中的每个像素 Φ,W,Q 用相应的 ν帽,W帽,Q帽 值填充。(这样,可以确保通过搜索最大抓取置信度的像素值,可以找到后续推理过程中的中心点坐标)

作者在中心点周围的矩形区域填充1表示最高抓取置信度,其他像素为0

 

利用该方法训练模型,学习中心点的最大抓取置信度

 

由于矩形区域中的所有像素都具有最佳抓取质量,因此会导致中心点的重要性未突出显示的缺陷,从而导致模型的模糊性。在这项工作中,我们使用二维高斯核来正则化抓取表示,以指示对象中心可能存在的位置。

 

(a) 二维高斯函数展开后抓取质量权重分布示意图,以及(b)抓取表示示意图。

一种新的基于高斯分布的小波变换抓取表示为G K ,相应的基于高斯的抓取映射定义为:

 

G K ={Φ, W, Q K } ∈R 3×W×H

σ x =T x , σ y =T y

 

生成的抓取质量图由中心点位置**(x0,y0) 、参数 σx和σy**以及相应的比例因子T x 和T y 决定。该方法以高斯分布的峰值为抓取矩形的中心坐标。

 

4 抓取检测模型的结构

 

 

通过 下采样块 将输入数据转换成尺寸更小、通道更多、语义信息更丰富的特征图。

在 bottleneck部分(瓶颈层) ,将 resnet块 和 多尺度感受野阻滞模块 相结合,提取出更具可分辨性和鲁棒性的特征。

感受野阻滞模块

同时,利用 像素注意子网络 和 通道注意子网络 组成的 多维注意融合网络 ,在上采样前 融合浅层和深层语义特征 ,同时在融合过程中 抑制冗余特征 , 增强有意义特征 。

 

 

在 上采样块 中, pixshuffle层 用于在比例因子设置为2的情况下提高特征分辨率。在这项工作中,多维注意融合网络和上采样块的数量都是2,并且输出可以表示为等式9。

多维注意力融合网络:顶部分支是像素级注意子网络,底部分支是通道级注意子网络。

最后,基于提取的特征,添加四个特定于任务的子网络,分别预测抓取置信度、角度(sin(2θ)和cos(2θ)的形式)和宽度(抓取器的打开和关闭距离)。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注