
RSS 2025 |从Manu -Manong学习复杂的机器人操作:Nus Shaolin的团队建议新的机器人组装技能学习框架手册2Skill 2skill
本文的首位作者是Tie Chenrui,他是新加坡国立大学的博士生和多伦多大学的研究/本科生Sun?? Shengxiang。合作是朱·金族,刘伊维,郭金格西安,胡尤,陈·霍恩,陈·琼德和吴·鲁伊哈伊。与新加坡国立大学计算机科学学院的助理教授Shao Lin相对应,其研究指示来自机器人和人工智能。视觉语言模型(VLM)为在真实环境中的机器人操作提供了一种高度有希望的解决方案。尽管在VLM上有很大的发展,但机器人仍然很难遵循复杂的长期活动(例如家具组装),这主要受到人类展示数据和培训样本的限制。为了解决这个问题,研究小组建议Manual2skill是基于VLM的创新框架Manual2skill,它允许机器人能够通过先进的视觉说明来理解和执行家具组装活动,模仿人类学习的组装过程。这种方法弥合了抽象指令和物理实施之间的差距,从而大大改善了机器人在实际操作中的实用性。目前,该论文被Robotics:Science and Systems XXI(RSS 2025)接受,这是机器人技术领域的主要会议。 Paper Title: Manual2skill: Study to read manuals and getRobotic Skills for furniture use of vision-danguage paper models: https://arxiv.org/abs/2502.10090 Project Home Page: https://owensun2004.github.io/Furniture-sembly-beb/Research Background Assembly is a complex TASEMBLY -BOBO: Understand the relationship with dividing and comprehension - 在各个部分的顺序中; (b)估计分区每个步骤的零件的姿势; (c)开发可操作的行动完成零件组装。 Although many computer vision techniques have achieved the amazing results in the pose predictions (B) through geometric or semantic methods, most of them ignore the same critical understanding of the order of understanding (a) and generation links (C) [1, 2].现有的端到端系统机器人通常依赖于模仿或加固的主体分析。 Although effective in some scenarios, these methods require large -scale data sets and large amounts of computing resources and are difficult to generalize in common long -term operational activities in real environments [3, 4]. In recent years, visual language models (VLM) have shown high level planning potential, environmental understanding and even direct robot control. Partial research is trying to include these capabilities for robot assembly, but most are limited to simple geometric objects and are not stable enough in the real conference scenario [5].主要专业人士BLEM是现有的VLM方法(和大多数方法)缺乏使用结构化的外部指导(例如Manu -Design指令)。这种缺陷通过依赖于抽象符号说明的kusmpacked组装工作限制了他们的性能。相比之下,人们可以从制造商的摘要中捕获信息,并学习操作技能,显示机器人功能中的重要空间:来自摘要的对象操作技能,专为人们设计。通过强大的视觉和言语推理能力,VLM提供了弥合这一空间的独特机会。通过挖掘概述的手动知识,VLMS使机器人能够更好和可靠地完成复杂的多步组装组装任务。 Manual2Skill:基于VLM的机器人指南机器人指南,以解决复杂和长期组装的限制,研究小组开发了Manual2skill-One-One-One-Onegong框架,该框架使用VLMS根据机器人组装技能的视觉说明来更改说明。手册2技能包括三个主要阶段:层次组装绘图生成:通过VLM检查manu -manu -image,该图像构建了一个分层图组件,描述了家具零件之间的结构关系。姿势的分步估计:猜猜每个装配步骤中涉及的家具组件的确切6D姿势。动作和实施的生成:将姿势信息转换为实现的机器人轨迹。图1:手动2Skill框架该绘图解决了现有机器人组装方法的两个主要局限性:通过更改人们理解的抽象示意图可以采取的动作和组件所构成的动作,机器人可以从指令中获取动作信息,避免在大规模上以高质量的数据显示数据。使用组装层次图作为结构化组装信息的主要识别,为真实的组装活动提供了一个共同的解决方案,是suitab对于所有多步骤问题复杂组件的LE。第一阶段:层次组装图生成手册的第一阶段2skill转换手册人们无法理解机器人工作计划。通过视觉语言模型(GPT-4O),形成了家具组件和子组件之间结构触摸的层次组件图。在此图中:叶子节点代表一种原子物质。节点na叶表示通过连接组件/子材料形成的集成结构。可以通过从叶子节点到根节点来获得完整的组装过程。为了开发此图,Manual2skill通过合并多模式输入,尤其是由来自多个图像和文本说明的视觉信息组成的多轮及时序列,完成了两个主要的子范围:跨域视觉理解:通过视觉动机(例如set-marked and narked and offingdino)-4O在其手动图中的场景图像中包含物理组件。进行语义关联是为了解决每个组件的作用和位置。结构化的采集信息:基于确定的信息,使用直接的方法,例如,从简单到传统的(至少在多数)和上下文上下文(内在上下文中)来确定每个步骤手册中涉及的特定组件。结构化的图形表征为下游姿势估计和运动计划奠定了基础,以确保准确遵守复杂的组装任务的实施。第二阶段:在绘制层次组件之后估算逐步组装的位置是指装配的组合和组件的组合,此阶段预测了组件每个步骤中所有组件的6D位置,以实现成分之间的准确比对。与上一条不同通常在整个组装过程中预测LALL零件位置的IOUS方法,在此,我们预测每个组装步骤中涉及的所有组件/子材料的位置。该设置与现实世界中的组装过程更加一致,还允许该模型防止因输入的单个部分数量过多而造成的性能损害。同时,我们还发现,尽管家具的形状差异很大,但它连接其主组件的方式(例如板和棍棒之间的连接)是相当固定的。这个预言步骤可以使模型能够更好地了解基本连接方法,从而实现了测试集对象的更高精度。为了实现这一目标,跨模式姿势估计模型执行了MGA手动图像和家具组件的3D点云的关节。模型体系结构包含四种主要成分:图像编码器(E_I):i-从ma中提取语义特征nu训练图像并捕获组件和方向关系的视觉线索。点云编码器(E_P):覆盖每个组件的点云数据。跨模式融合(E_G):使用图形神经网络(GNN)包含具有点云特征的图像。姿势回归器(R):猜测融合功能中每个组件的SE(3)姿势。如果构图I_I和组成部分所涉及的点的云集,则该过程的流量如下:确保预言的稳定性和准确性,该模型采用了复合损失函数:SE(3)误差变化(3)旋转地理位置(旋转地理位置),使该模型能够处理一件事,而不是与输入的组合,与该群体相似,与该群体相似,该构造的范围与该模型相似,该构造的属性,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型均与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型与该模型相似,该模型均与该模型相似。在训练集中可见。在此阶段,我们使用启发式方法来抓地力和实体运动计划算法,以使机器人臂可以拾取相应的零件并将其放在预测的姿势中。抓取计划和部分操纵,我们使用FoundationPose和Sam来估计现场所有部分的初始姿势。根据几何成分应用启发式方法来抓地力:杆状成分:与纺锤体一起抓住质心。扁平的Manipismga部分部分:使用固定装置/平台固定它们并将其牢固地固定在边界上。在计划运动和癫痫发作的实施之后,机器人使用RRT连接(基于采样的运动计划者)来计算碰撞,而无需从当前位置到目标位置的轨迹。在避免障碍时,所有其他事情都被认为是云。通过定位锚固,以确保准确的监视和控制,来查看抓取成员在轨道中间的位置。进入最后一部分会议大会是一项密集接触的任务,涉及与评论的准确对齐。由于闭环插入物的复杂性,人类专家目前正在这样做。在未来的研究中,我们将包括触觉和力量传感器,以实现自主插入。在模拟和实际环境中进行的各种宜家工具中进行的实验和分析,以验证手动2skill的稳定性和有效性。层次组装绘图生成结果2:层次组装绘图结果,我们尝试了我们在真正的宜家Manu -manu -manu的102中提出的生成层次组装方法的性能。可以看到简单和中型复合工具(零件≤6的数量),我们的过程可以更准确地生成组装图。同时,在所有复杂工具中,我们的过程的性能明显优于基线方法。尽管所有方法在复杂的工具中的性能有限,但我们的方法将提高VLM的性能。图3:估计所选nwe的层次组件图的视觉姿势,其中有三种类型的对象(椅子,台灯和桌子),从partnet数据集中具有每种类型的100个对象,并提供了该对象的部分组合的示意图,以此作为闪光器中的Manu -Inflendion的图片。图4:姿势估算实验结果的实验??结果表明,通过多模式特征特征集成和建模空间关系,该方法在所有四个考试指标中都超出了基线的基础。图5:在对50个简单至中缺乏家具的模拟测试中测试视觉模拟姿势估计值,Manual2skill的成功率达到了58%的成功率,这大大超过了整合组装组装层次图的有效性的现有启发式和验证,姿势估算和运动计划的估计。实验器在物理上我们要测试d我们的整个框架都有四种真正的宜家家具(Flisat凳子,Variera架子,Sundvik椅子,Knagglig盒子),反映了我们在真正的机器人组装工作中框架的可行性和出色性能。图6:可视化现实世界家具组装过程零样品扩展可以扩展到手动指导组装活动,例如轴,飞机玩具甚至机器人臂,其成功率100%,以基于VLM基于VLM的VLM基于VLM的VLM基于VLM的VLM的VLM的其他VLM中基于VLM的VLM中基于VLM的概括的好处。图7:本文中零样品扩展可视化的结论和观点,Manual2skill,一个领导框架,该框架提供了机器人来研究人为设计的视觉说明,并能够团结起来以通过VLMS执行复杂的任务SA家具组装。 Manual2skang疾病有效地弥合了抽象手册和物理实施之间的差距。马努阿L2SKILL建议一项新的机器人研究。机器人可以从为人类设计的手册中找到复杂而长期的操作技巧。与收集大量的Manu -Manu数据数据来研究模仿相比,它大大降低了获得复杂的操作技能的成本和复杂性。同时,通过抽象图表和符号表示,对操作的Manu -Manu -Manu启发知识。该抽象表达式获得了基础结构和操作过程的主要逻辑,而不仅仅是记录动作 - 以表面上的作用遵循动作。 AIN -DEPTH的理解是,这提供了在各种物体调整,环境条件和机器人生物中有效概括的技能。参考文献[1] Yun-Chun Chen,Haoda Li,Dylan Turpin,Alec Jacobson和Animesh Garg。 “神经形状伴侣:具有对抗形状先验的自制物体组件”。在IEE/CVF会议的继续关于计算机视觉和模式识别,第12724–12733、2022页。[2]本杰明·琼斯,道尔顿·希尔德斯,杜文·陈,伊利亚·巴兰,弗拉迪米尔·G·金和阿德里亚娜·舒尔茨。 “自动化:自动CAD组装婚姻的研究和研究方法”。 ACM的图形交易(TOOG),40(6):1-18,2021。“ RoboAssembly:在多机器人小说中研究的通用家具组装政策。 Arxiv预印术:2112.10143,2021。[4] Zuyuan Zhu和Hush Hu。 “从示范到机器人组装的PAG研究机器人:调查”。 Robotics,7(2):17,2018。 Arxiv预印型ARXIV:2409.17126,2024。