网络知识 娱乐 SIGGRAPH 2022 | 基于动态交互表征的灵巧手物体抓取过程学习

SIGGRAPH 2022 | 基于动态交互表征的灵巧手物体抓取过程学习

Learning High-DOF Reaching-and-Grasping via Dynamic Representation of Gripper-Object Interaction

Qijin She1,2 Ruizhen Hu2 Juzhan Xu2 Min Liu3

Kai Xu1 Hui Huang2

1National University of Defense Technology 2Shenzhen University 3Chinese Academy of Military Science



导读


论文Learning High-DOF Reaching-and-Grasping via Dynamic Representation of Gripper-Object Interaction发表在计算机图形学顶级会议SIGGRAPH 2022上,由深圳大学计算机与软件学院可视计算研究中心和国防科技大学课题组合作完成。项目主页:

https://vcc.tech/research/2022/Grasping


该工作提出了一种基于抓手物体动态交互信息的高自由度灵巧手抓取过程学习方法,能够为各种形状的物体生成接近和抓取的运动轨迹。


引言


接近抓取任务指规划机器手完成从靠近物体到最终抓取物体整个路径,并且要在整个路径中避免碰撞。本文通过深度强化学习来学习高自由度“接近-抓取”的抓取规划。

为解决学灵巧抓取控制的样本效率问题,本文提出了一种有效的抓取状态表征,该状态表示成抓手和目标对象之间的空间交互。具体来说,本文采用交互二分面 (interaction bisector surface,IBS)来表示交互, 它定义为两个接近的3D几何对象之间的维诺(Voronoi)图。该表征在之前的工作中被成功的运用到表征3D对象之间的空间关系。


本文发现IBS作为一种状态表示非常有效,因为它很好地为手指控制提供了与目标对象的空间关系。这种新颖的抓取表示,以及包括快速近似IBS计算,一种新颖的基于向量的奖励和有效的训练策略等整个一系列改进,让我们能够训练一个具有良好样本效率、动态适应性且具备跨类泛化性的高自由度抓取控制策略模型。实验证明本文的方法能够对复杂形状产生高质量的抓取以及平滑的运动轨迹。



技术贡献


本工作主要贡献如下:

  • 针对接近抓取的规划学习,提出了一种新颖的状态表示。这种表示基于抓手和物体之间的交互二分面,并且实现一种快速的计算方式以满足实时性任务需求;
  • 在对交互二分面的特征提取上,本文采用了局部和全局编码器并用的多层次特征提取方式,能够更好地提取抓手和物体的交互信息;
  • 在强化学习中使用了一种新颖的向量化Q函数表示,使得它能够编码每个手指单独的接触碰撞信息,让碰撞避免的学习更加高效;
  • 使用了能够自动生成的不完美示例加速训练过程,并对强化学习的回放缓存进行了对应的修改。


方法介绍


本文需要解决的问题是,如何控制灵巧手关节的变化,使得能够让灵巧手能够接近并抓起物体,并且在整个过程中避免与物体或桌面的碰撞。图1展示了本文方法规划灵巧手运动的一个迭代过程。

图1. 方法的一个迭代过程


在已知机器手的几何信息和当前关节数值,以及场景几何信息之后,我们首先计算机器手和场景的IBS,如左二图所示。然后我们使用编码器提取IBS的特征,并用于预测机器手关节的变化。在执行预测的动作后,我们则再次运行上述流程。重复这个过程,我们就能够完成对机器手从接近到抓取物体的整个过程的规划。


在这个流程中,主要有三个点需要介绍:第一个是交互二分面计算速度的加速,第二个是策略网络的设计,第三个是策略网络的训练策略。


1. 基于采样的交互式二分曲面计算方式

IBS被定义为空间中到两个物体距离相等点组成的集合。传统的交互二分曲计算需要先计算维诺图,再从中抽取出IBS。而计算完整的维诺图开销巨大且不必要。为了在性能和准确性上取得一个平衡,我们空间离散化并利用采样的方式计算近似的IBS。此外,我们在空间上限制了采样和计算范围,因为我们并不需要整个场景的IBS而只需要和机器手比较近的部分。为了减少采样带来的精度误差,本文还设计了一个迭代优化方法来减少近似IBS到真精确IBS的距离误差。

图2. 基于采样交互二分曲面的界面示意图


具体来说,我们规定IBS计算仅仅在以手掌中心为圆心, 为半径划定一个球体的球体范围内。球体的包围盒被离散成 的方格。对于每个方格,我们在方格的中心进行采样。对于每个测试点,我们计算它到场景点云的距离和到机器手点云的距离,并记录两者距离差 δ ,如果 δ ,则该测试点为交互二分曲面上的点。我们抽取处在 δ 正负分界面上的点并将其看作近似IBS的点云,并用作后续的特征提取。


如图2所示,采样空间内的点被交互二分曲面划分为了两个部分,即距离场景更近的方格(标为红色)和距离机器手更近的方格(标为蓝色)。其中深红色和深蓝色的部分就是零值临界面上的点。


此外基于网格采样的方法,近似误差高度受到方格采样分辨率的影响。因此,本文设计了一种迭代优化的方法来进一步调整采样点的位置,使其更加靠近精确的交互二分面。具体做法可以参照原文。


2. 策略网络的输入输出和网络结构设计

本文训练一个策略网络来规划机器手的运动。策略网络的网络结构图如图3所示。

图3. 策略模型的网络结构图


本文策略网络的输入由两个部分组成,一个部分是IBS点云。另一个部分是机器手当前的关节度数。IBS点云中每个点的特征除了坐标信息之外,还附带了一些额外信息,这些信息中最特殊的就是该点对应手的哪个部分。本文将手划分为手掌和五根手指这六个部分,因此每个IBS点都对应了六者中的一个。机器手的关节度数包括内部关节的度数和外部关节的度数。外部关节在本文中指的是机器手包括旋转和平移的6D姿态。本文中使用RPY角表示机器手的旋转。


本文策略网络的输出也包括两个部分,一个部分是机器手外部关节和内部关节的变化值。另一个部分是一个停止信号。这个停止信号可以让机器手在已经到达较好的抓取姿态后主动停止任务。


该策略网络再IBS的编码器使用了多层级的特征提取。具体来说,使用了全局编码器和局部编码器分别抽取IBS点云的特征。全局编码器将IBS整体作为输入,而局部编码器分别对不同手部分对应的IBS点云进行分别处理。全局编码器和局部编码器输出的特征会被聚合在一起作为IBS特征。


3. 基于多维奖励函数和不完美序列的强化学习方法

本文使用强化学习方法利用奖励函数训练策略网络,本文的任务需要在抓取物体的同时避免和环境的碰撞。为了更好地对两者进行平衡。本文对奖励函数进行了向量化的分离。一方面,本文定义了一个抓取奖励函数,它使用最终抓取的数值评估值作为奖励,用于鼓励机器手以可靠姿态抓取物体。另一方面,本文对机器手的每个部分分别定义了一个接近奖励函数,如果该部分轻微接触物体则进行奖励,如果该部分穿透物体则进行惩罚。因此本文的奖励函数为一个7维度(1维抓取奖励,6维接近奖励)的向量。


本文使用Soft Actor Critic(SAC)强化学习算法来训练模型。该方法训练策略网络之外还会额外训练一个Q函数网络。Q函数网络是对未来奖励预期的评估,用于辅助策略网络的训练。一般来说Q函数的输出是一个标量,但是由于我们使用了向量奖励函数,我们也对其进行修改扩展,使其输出同样的7维向量来评估各个奖励函数的预期。


为了进一步提高强化学习的训练效率,本文和很多先前方法一样使用示例来加速训练过程。但是本文使用的示例是以较低代价、能够自动生成的。本文生成示例的方式如下图4所示。

图4. 示例的生成方式


我们首先可以通过Graspit等工具使用采样的方式得到最终抓取姿态。为了生成接近抓取的序列,我们首先让机器手保持外部自由度不变内部自由度逐渐到0,这样会让手掌逐渐摊平。然后我们沿着物体中心和手掌中心的方向将机器手推离物体。这样如果我们将这段过程倒放就得到了机器手逐渐接近物体并抓取物体的示例。由于SAC是离策略的方法,我们可以直接将示例作为额外数据用于训练策略网络。


结果展示


本文在YCB和ContactPose等模型数据集上测试了本文方法。本文测试了训练好的模型在多种没有见过的物体上的表现,抓取过程的可视化如图5所示,紫色为机器手中心运动的轨迹。我们可以看出,本文提出的方法能够为不同的物体生成抓取过程和抓取姿态,具有较好的泛化性能。

图5. 方法的抓取过程可视化


本文也测试了对于相同物体的不同的机器手的初始位置的生成结果,如图6所示,左边第一列紫色球标出了机器手中心点的初始位置。从结果我们可以看出,在抓取相同物体时,即使机器手的初始位置不同,本文的方法也能够成果产生合理的抓取,且这些抓取也不尽相同。

图6.相同物体不同初始姿态的抓取结果


总结展望

基于学习的机器人操作是是通向具身人工智能的关键一步。本文研究聚焦于机器人操作中的基础的接近与抓取任务。本文引入交互二分曲面作为动态抓取表示,克服了传统以物体为中心表示对机器手信息以及机器手和物体交互信息捕获不足的问题,同时提出了基于示例和多维奖励函数的改进强化学习方法来进一步提升抓取方法的训练效率和性能表现。


此外,纵观目前机器人学习领域的研究,如何设计机器人操作的状态表示也是目前亟待探索的研究方向。我们认为本文的成果对该方向的研究也有启示意义。


思考讨论

Q:本文提出的方法是使用球面作为机器手中心初始位置的集合,这样半径的设置在训练时是有一定的范围吗?那么算法能够泛化到半径在范围外的球体上吗?

A:是的,本文规定机器手中心的初始位置在以物体为中心的球面上,球的半径有一个范围。本文提出的方法可以泛化到半径小于训练集合的情况,因为这些状态是在训练中可能见过的状态。对于没有在训练中出现的半径大于训练集合的情况,本文则可以简单地将手朝着物体中心移动直至到达本文训练中的范围。


Q:抓取是需要向物体施加力的,本文方法中抓取物体的力是如何产生的呢?

A:本文提出的方法在生成抓取姿态后,会添加一个后处理让手指闭合,这个过程会被动产生施加在物体上的力。


以下是开放性问题,欢迎读者朋友留言讨论:

Q:算法能够生成的抓取具有较高的抓取质量,但是可能在人看来却不够自然,我们能否使得生成的抓取更加自然呢?比如我们可以利用现有的人手抓取标注数据(比如GRAB)和生成式对抗网络训练得到一个抓取自然性的评估指标并用它指导方法的训练