科学家在提升机器人任务规划的潜力方向取得重要进展

2022-08-08 21:05:49

近日，北京大学人工智能研究院朱毅鑫助理教授及团队在IEEE/RSJ IROS 2022发表文章“Sequential Manipulation Planning on Scene Graph”，介绍了让机器人在理解场景结构的基础上进行复杂的任务规划，从逻辑语言到场景图，机器人的任务规划潜力获得了极大提升的方法。

灵活利用外部环境以助达成目标一直以来被看作是高等智能的一种体现，其中不仅涉及了智能体对复杂环境的认知能力，也反映了智能体对规律及常识的灵活应用。例如，在搬运大量物体时，几个月大的婴儿或者拥有同等智力的猴子只会用两只手一趟趟地搬运物体（下左），等到婴儿再长大一些，他们会变得更加聪慧，懂得使用桶或者容器来提高效率（下中）[1]。那些搬运领域的“专家”们则能够将环境利用到极致，合理地将物体进行堆叠以求更好更快地搬运大量物体（下右）。在这个例子中我们不难发现，人类逐渐在成长中学会了物体间如何支撑才能稳定这一物理规律，并且灵活运用到了自身的行动中。

一个智能体，或是一个智能机器人，是如何利用物理规律或者常识来规划行动并达成目标的呢？其实从20世纪50年代开始，人工智能领域的学者们就思考着怎样让智能体自主解决复杂问题，并发展出了自主规划（automated planning and scheduling）这一子领域。结合后来机器人学的出现与发展，进而衍生出了机器人的自主规划，即任务规划（task planning）这一主题，目的就是为了让机器人根据所处环境、自身能力，以及任务目标来安排合理的行动计划（action sequence）。任务规划最初依靠逻辑语言，使用离散化的符号描述环境状态与物体之间的关系，通过搜索算法搜寻可行的行动序列（其中隐含了人为定义的物理规律和常识）改变环境状态直到目标状态。经过几十年的发展，基于逻辑语言的任务规划渐趋成熟，但在应用到实体机器人上面时，其中的问题逐渐凸显出来：逻辑语言无法描述不断变化的连续信息，例如物体在空间中的坐标，物体的几何模型，性质等等。但是这些信息又是机器人进行运动规划（motion planning）所必需的，导致一个在逻辑语言上合理的计划，在三维空间中并不一定合理。所以，对机器人来说，基于传统的逻辑语言的任务规划有着很多无法解决的痛点。

近年来，人工智能已经发展到前所未有的高度，其中计算机视觉得到了极大发展，对环境信息的表达更加丰富。其中通过机器人视觉与SLAM算法生成的场景图[2]不仅仅可以表示物体之间的逻辑关系（例如上、下、左、右等），也可以表示物体本身的性质（几何形状、体积、质量等），以及运动结构（kinematic structure）。例如前文提到的搬运例子，物体之间稳定的支撑关系由物体自身几何形状、质量、重心位置、物体间相对位置等等因素共同决定，而且这些信息仅靠逻辑语言无法完整描述。但是依据场景图上丰富的信息，就有可能描述稳定支撑关系，进而使得利用更加丰富的物理常识进行任务规划成为可能。如此看来，使用场景图作为智能机器人任务规划的基础是非常有潜力的。（来源：北京大学）

收藏举报