英国剑桥大学和瑞士洛桑联邦理工学院联合博后刘思超：视觉语言模型赋能机器人操作技能

日期：2025-04-18

报告题目：视觉语言模型赋能机器人操作技能

报告人：刘思超

报告时间：2025年4月22日（星期二）早上10:00—11:30

报告地点：机械与汽车工程学院汽车科技大楼821室

主办单位：机械与汽车工程学院

报告人简介：

刘思超，英国剑桥大学和瑞士洛桑联邦理工学院联合博后，博士毕业于瑞典皇家理工学院，师从加拿大工程院院士，瑞典皇家理工学院讲席教授Lihui Wang。同时，在ABB瑞典研究院担任机器人方向的研究科学家。长期从事人工智能和机器人研究工作，主持瑞典研究理事会基金1项, 瑞典国家超算中心项目2项。参与多个欧盟地平线2020项目和瑞典-韩国国际合作项目，发表SCI学术论文40余篇，多次获得国际会议优秀论文, 荣获国家优秀自费留学生奖励（瑞典）。

报告摘要：

视觉语言模型驱动的机器人可以在工作时进行对话、推理和动作规划。此外，其在高水平任务规划、机器人灵巧操作和代码生成中得到广泛的应用，驱动通才机器人策略和学习的进步，但文本指令背后的逻辑推理未得到有效的探索。通过理解文本命令，具备视觉和导航功能的自主移动机器人可以在执行装配任务时实现运动控制、物体检测和操控。这些功能对于可靠的装配操作至关重要，能够以正确的方式处理正确的物体。针对这些问题，提出了一种基于视觉人工智能的人机协作装配技术，该技术由大语言模型和自主移动机器人支持。开发了一种基于神经对象场的模型，用于精确的 3D 重建和 6D 物体位姿估计结合细粒度的机器人场景理解。该模型使基于视觉伺服的自主移动机器人系统能够具备物体映射功能，并在装配环境中导航以进行物体检测、跟踪和操控。最后，执行大语言模型驱动的文本指令和高级机器人控制命令的逻辑推理，以实现装配中自然的人机交互。