五年前,在浙大控制科学与工程学院一间会议室里,刚从剑桥微软研究院回国的叶琦,向课题组描绘了她的长聘故事:五年之后,她希望把机器人拉来答辩会现场,由机器人为在座评委们逐一端茶倒水。
机器人、灵巧手、端茶倒水,这在当时还是一个颇有难度的研究任务。非机器人科班出身的叶琦,面临着跨界探索的挑战:她此前从未研究过机器人,还得从头开始学新知识,“再当一回博士”。
在此之前,她一直沿着计算机视觉路径开展研究。2008年本科毕业于北京师范大学后,她前往清华大学读研,2014 年进入英国帝国理工学院攻读博士学位。博士期间,她在学术顶会上分享的手势识别相关工作,让她得到了一位学术大牛 Jamie Shotton 的盛情邀约。
Jamie Shotton 彼时担任剑桥微软研究院微混合现实与人工智能实验室负责人,他邀请叶琦前往研究院进行交流。还未意识到这是一场面试的叶琦,在轻松的交谈氛围中与团队聊得很是投缘,直到最后,她才发现原来是“招贤令”。
在与 Jamie Shotton 1v1 的饭桌上,叶琦有些拿不准究竟是加入微软团队,还是回到学术界做科研。叶琦面对着 Jamie Shotton,一个她读研时常看的论文作者;还有一位中途临时加入饭局的 Christopher M. Bishop,是经典教材 Computer Vision and Pattern Recognition 的作者,这两人都是她大为敬佩的前辈。
能够与读书时候就一直钦佩的学术大拿们共事,而且还是她当时看好的技术方向——MR/VR 技术,她心中的天平开始向着微软研究院倾斜,“不管三七二十一,先去干两年再说。”叶琦随后加入 Jamie Shotton 团队。
彼时 MR/VR 技术升温,数百企业开始涉足相关领域,AR 眼镜、头显设备涌现。2019 年,微软发布的第二代 Hololens headset 头戴 MR 设备,正是由叶琦所在的的团队所负责 。叶琦深度参与了 Hololens2 手势跟踪算法的开发,后来也参与到数字人研究。
一年多后,因为更热爱自由探索前沿技术,叶琦选择回到浙大任职。浙大给予她充分的自由,让她能够自行选择研究方向。最终,叶琦选择转向机器人领域,聚焦于灵巧手研究,为此,她也做好了“恶补”一番的准备。
只是她没想到,机器人领域突然升温,此前稍显冷清的灵巧手领域,一下子涌进许多聪明脑袋。她留意到,灵巧手的研究进度明显在加快。2024年,她们课题组一篇关于灵巧操作的论文刚被 ICRA 收录,博士生还未来得及推进下一步,一篇基于他们工作的新论文很快投稿到 2025 IROS 并挂在 arxiv 上,“太快了,马上就有人把我们计划做的工作给做了。”
而原先颇有挑战的课题任务,随着大模型的发展以及技术的不断磨合,开始变得有些轻松了。
这在此前是难以想象的。当初叶琦转向灵巧手时,她一度苦恼于这一领域形同荒地开垦。一面,她作为新人,得和学生一同学习机器人知识、解决问题;另一面,五爪相关研究较少、研究者也少,意味着一篇文章能有的引用量上限并不会太高。
之所以选择迎难而行,是因为看见机会。计算机视觉出身的叶琦,曾目睹过计算机视觉、计算机图形学的融合,新技术方向随之而生,3D 领域的论文也由此成为顶会常客。彼时她坚信,未来机器人与计算机视觉、计算机图形学会融合在一起,催生出一个新领域,历史将再度重演。
叶琦的预言在当下得到了验证。具身智能热潮下,不同学科背景的人陆续汇聚在新的交叉口上,影响开始显现。例如,原先机器人领域缺乏统一标准,难以衡量工作好坏、复现他人代码,更别提在他人工作基础上进行迭代。现在,不少原计算机视觉、图形学的人才加入具身智能社区,和机器人领域的研究者们一起开始搭建属于机器人领域的“Benchmark”,推动着机器人迈向更为开放的社区。
今年 1 月,叶琦课题组发布并开源了大规模灵巧手抓取动作数据集 GraspM3。它包含超 100 万条抓取轨迹,涵盖 8000 多个物体,轨迹自然流畅,有详尽语义标注,且经两个仿真环境验证,为机器人抓取研究和应用提供了全面的数据资源。
两天后,叶琦又在社交平台上推出了视触预训练与灵巧操作的数据集与基准。她们收集了 10 个人类操作的日常任务与 182 个物体视觉-触觉数据集,还提出了一种新颖的基准用于检验工作效果。这一工作也将会陆续开源。
“等所有代码、平台开源之后,灵巧手整个领域,大家的进入门槛会低很多。”叶琦告诉 AI 科技评论。
谈及研究目目标,叶琦希望实现的核心是:让任何配备触觉传感器或其他传感器的灵巧手,都能自主完成各类操作任务。她的研究聚焦于灵巧操作的智能化技术,较少涉及硬件设计本身。
以下是 AI 科技评论与叶琦的交流。
AI 科技评论:你的研究兴趣非常丰富,是在本科阶段就对计算机视觉、图形学与机器人交叉领域产生兴趣了吗?聊聊你的研究经历吧。
叶琦:大四时,我接触了图像处理相关课程,发现图像处理与其他领域有所不同,它能给予明确反馈,像算法优劣、图像去噪效果以及高斯平滑算子应用于图像后的成效等,你所做的任何工作都可以直接获得反馈与对比,我觉得还挺有趣,所以从本科毕设开始做的就是图像相关。
在清华读研期间,研究方向依旧与图像相关,导师专注于数字手写、数字字符识别领域。本科及硕士阶段,我侧重于图像处理中的算法与算子研究,例如经典的 SIFT 算子,主要从改进算子的角度去探究问题。到博士阶段,我从事手势跟踪研究,通过图像或深度点云来恢复手的三维骨骼,这对人机交互意义重大,如今 Meta、Apple的头显设备中,手势跟踪不可或缺。此外,博士工作还涉及人工提取特征,运用随机森林开展,我的博士课题则围绕深度神经网络进行研究。
后来,我前往微软亚洲研究院实习,实习内容也是图像相关,侧重安全方面。大家会看到部分网站利用含有歪歪扭扭字符的图片来防范恶意访问。这些字符设计目的是让机器无法识别,却可被人识别。我们的研究旨在探究这样的设计机制是否真的能防止机器自动识别,为此我们尝试对图片进行分割、分析,再交由OCR引擎识别,看它的安全性、鲁棒性表现如何。
AI 科技评论:你离开微软后加入浙江大学,从产业界转向学术界,是出于什么考虑?
叶琦:在剑桥微软研究院工作时,正值疫情期间,一个人在剑桥呆着挺孤单,加上家人都希望我回来。
另外,去了工业界后发现,做产品与开展前沿技术研究之间存在很大的 gap。产品落地会涉及很多工程化问题,过程中需要解决大量难题。虽然剑桥微软团队非常好,但工作内容更偏向产品侧一些,难以完全自主地去做研究。在公司里,研究方向往往由高层决定,但我特别喜欢自己去深入钻研,只要觉得特别有意思的,我就特别想去做。但在公司里并没有这样充分的自主决定权,可能还得向领导论证你所选的方向,说服他们认可其可行性及落地可能。
经过这些体验,我发现自己更喜欢在高校从事研究工作。我进入浙大后,并没有人告诉我你要做什么方向,我可以根据自己的兴趣来进行研究方向的选择。
AI 科技评论:你自己选择了机器人领域?
叶琦:是的。
AI 科技评论:为什么决定转向机器人?一个看似和你此前研究经历并不太相关的方向,是看到什么新变量吗?
叶琦:我进微软前,CV(计算机视觉)和 CG(计算机图形学)相对而言是两个不同且方向相反的学科,很少交集。CV 旨在从视觉角度理解并重构物理世界;而 CG 则是假定存在一个虚拟世界,去给它做渲染,基于成像原理计算出一个物理世界图像。
那时候这两个学科基本不会融合于同一领域,但在2018、2019年参加 CVPR 时,我看到一篇论文将图像渲染过程设为可微(differentiable)过程,当时我就跟导师探讨,觉得未来 CV 和 CG 会融合成一个方向。
CG 研究的是从模型到图像,以往采用光线追踪(Ray Tracing)等方案,因其各种复杂计算过程,不一定是非常好的可微可导,导致难以实现从图像到模型,再从模型到图像的回环。
举个例子,用手势图像重构出三维手势,再将该三维手势渲染回手势图像,以往这一过程可能是割裂的。以前要评价一个重建的三维模型好不好,靠的是人为标注数据。后来部分工作将三维模型渲染回图像的过程变为可微过程,这样一来,渲染图像就能够直接与输入图像对比,不一定需要人力标注。
通过这一过程,可以实现从视觉推理三维世界、再从三维世界渲染回图形,也就是完成 2D 到 3D、3D 到 2D 的回环。毕竟有正过程与逆过程之分,CV 与 CG 天然具备共同研究的基础。以前 CV、CG 领域各自为政,较少迈进彼此的领域,但现在可以看到一个二者共同参与的新兴研究领域。
例如,随着可微渲染和后续NeRF等工作出现,整个三维视觉领域蓬勃发展起来。观察 CVPR 这类顶会的论文投稿量便能发现,过去以 Segemantation(分割)、Tracking(跟踪)、Classification(分类)为主,近五年则变成了三维重建、新视角渲染等 3D 相关话题,还包括当下热门的凭几张图片直接重建或者生成一个三维场景的研究。
鉴于不同学科、底层技术的新融合会催生出新的研究方向与结合点,当时我觉得这或许是个机会。基于过往经验,我转入机器人领域,就是因为预见机器人未来会和 CG、CV 相融合,就像当初 CV 与 CG 融合一样。
所以我经常跟我的学生讲,我是在图形学、机器人以及视觉的交叉方向上开展研究,这三个领域是相互贯通 的。
AI 科技评论:机器人领域有很多方向,为什么偏偏是灵巧手?
叶琦:当时选择研究灵巧手时,我心里也有些打怵、不太确定。在2020、2021年前后,虽然世界上也有一些做灵巧手的机构,但远不像计算机视觉领域那般热门。当时做“二指夹爪”的单位不少,但着手做“五爪”的却非常少,而且那时机器人领域整体也尚未大热。
我走访了很多企业进行调研,以按摩机器人为例,每进行一项按摩操作,可以更换不同按摩头;在工业分拣应用方面,二指夹爪不行时就换个吸盘,靠着二指夹爪与吸盘的相互配合,基本上就能完成大部分工作了。
既然如此,我当时就一直在问自己一个问题:既然二指夹爪就能抓起很多东西,那我们为什么还要去做灵巧手?是不是为了解决问题而解决问题、为了难而难?
因为高自由度的灵巧手,其操作难度相当于五个机械臂协同工作,这么难的问题并没有受到广泛的关注。当时我之所以决定研究机器人灵巧手,正是因为它还没有被很好解决,而且很少有人去钻研,我觉得这其中还有很多问题待攻克,于是便开始研究。说实话,我当时也没看到它有多大的价值。
AI 科技评论:选择去解决困难的问题,这需要坐冷板凳。
叶琦:对我们而言,这冷板凳也不是那么好坐。五年前我刚进入浙大时,给我们课题组描绘的愿景是:五年之后,我会拉来一个机器人,让它给在座的各位评审们端茶倒水。但我此前没有机器人研究基础,这相当于我要从头开始钻研机器人,其难度不亚于再读一回博士。
AI 科技评论:从你深耕的原研究领域跨界到新研究方向,这个转型过程中,在知识体系重构、研究方法适配等方面,有遇到哪些超出预期的挑战吗?
叶琦:肯定是有挑战的。如果我继续深耕原来的研究方向,那我还能够持续发论文。可一旦转换到新领域,我要和学生一同成长,那这一两年的时间里,我或许就无法产出论文,或者相比同龄人而言,产出速度会慢一些。
像我以前从事视觉领域,我很少接触强化学习以及机器人硬件相关内容。而转向机器人领域后,我得跟学生一起 debug(解决问题)。我经常跟我学生说,在这个新方向上,我不懂,你们也不懂,那我们就一起学。这个过程并不轻松,压力巨大。
例如,购置机器人设备并不像买服务器那般简单,我们从英国采购一台机械手,光买设备这一环节可能都得耗时一两年;建设实验室更是要完全从零开始,哪怕是购买每一个传感器,都会与自己的学生一起讨论。前期要投入大量精力与资源,到了后期,要让自己尽量不被其他人影响,得时刻提醒自己,这没什么问题,我所选择的是新方向,要允许自己和学生在这段时间内即便没有成果产出,也要去大胆尝试一些新事物。
对学生而言,转向机器人领域的过程同样会给他们带来压力。机器人领域与视觉领域并不同。在视觉领域,大部分视觉算法的代码都是公开的,不仅有源代码,而且平台也搭建好了,各项参数都已调试妥当,只需从 GitHub 上把代码下载过来,就能直接运行,随后在其基础上做些修改就可以。不少学生觉得,那我做计算机视觉相关工作,就不用调试硬件,自己只需要在别人已经完成的基础工作上接着做就行。
AI 科技评论:在这种压力下,五年前你向学院课题组提出的让“机器人端茶倒水”的任务难度会不会很高?
叶琦:其实没那么难,当时我想的是,五六年时间,我应该能够达到预期程度。但我没想到机器人操作突然会这么火。如今火了之后,发展速度确实加快了,尤其是这两年的发展,让我觉得这件事变得更加简单了。
AI 科技评论:怎么理解这种简单?
叶琦:因为有很多人在做。之前我研究五爪时,整个 Community (社区)中做相关工作的人相对较少。人少,大家推进的速度就慢。现在人多了,速度也就快了。
比如我们 2024 年在 ICRA 发表的一篇论文,很快就有人据此开展工作并投稿至 2025 年 IROS。因为我博士生忙于其他事务,本想让他顺着该论文继续后续工作,没想到论文刚发表就有人 follow 了,把我们 2025 年计划做的事做了。说明这个领域真的汇聚了很多聪明的脑袋,大家一起在推动这个领域向前发展。
随着 VLA、多模态大模型等技术发展,不少人尝试技术融合,进行上层平台、基础模型相关工作。我们取得底层技能突破后,将上下层能力结合时,我发现不用再从头做上层工作,已经有不少的工作可作基础,让我们省力不少。我们把所做的数据集开源,对他人而言,也省去了从头收集数据的麻烦。
等代码、平台全部开源后,灵巧手领域的进入门槛会大幅降低。此前我会觉得五六年实现端茶倒水任务较难,但经过这几年发展,你会发现它变得容易多了。
AI 科技评论:你提到灵巧手的发展加快,有人表示灵巧手在过去很长一段时间里一直没有什么实际性进展,现在也还有很多问题没突破,比较悲观,并不看好灵巧手的发展。你怎么看待这一观点?
叶琦:有悲观的声音很正常,但我觉得技术的发展并非线性过程,而是经历转折点后迎来爆发式发展。
为什么灵巧手在过去几十年间发展缓慢?一方面,灵巧手的硬件研发难度高,相当于要将五个机械臂集成于狭小空间内。硬件机械结构高度集成化,能否实现高自由度是个难题。现在灵巧手多是5、6个自由度,也有一些宣称十几、二十个自由度的灵巧手,但我还没接触到。在我们经费可承受范围内,目前还难以买到非常好用的灵巧手,而我们的研究又依赖于本体。没有硬件基础,那研究基本无从谈起。
另一方面,近年来图形学领域中关于人手操作生成的工作数量不少,而操作生成离不开对于手的数字化描述。Michael J. Black 团队 2017 年提出了针对手的参数化描述—— MANO 模型。可以看到,即便在纯图形仿真层面,这样高质量且便于使用的开源手模型,也是直至2017年才提出。
此外,以往采用模型预测控制(MPC)等传统控制优化算法来求解,这需要对手进行精确建模,涉及摩擦、运动等方面,操作难度极大。即便完成建模,相关技能也很难泛化到其他场景,对应的研究方法较少。如果你说传统方法不好,转用强化学习,这也可以,但问题是强化学习需要训练场,即一个可交互的三维虚拟世界。然而要创建这样一个虚拟世界也不容易,需要借助仿真平台。
总体而言,算法方面存在限制,若采用更先进的学习算法,又得依赖于仿真平台和图形处理器(GPU)。过去,从算法到机械本体,再到软件平台,各方面都存在不足,导致导致灵巧手很难取得良好发展。
现在人形机器人火热,国家也在积极推动,从政策扶持到经费拨付,都给了有力支持 。经费往这一方向倾斜,促使我们的研究也更侧重这块领域,相当于吸引了更多人才投身其中。今年,我们还与机械系老师共同申请了浙江省相关项目,就是研究灵巧手。
随着大模型的进步、硬件的优化,加上 3D 生成技术能够为我们提供训练场,我觉得用不了多久,只需给定语言输入,便可生成任意厨房的排布情况,这相当于为机器人提供了训练场,能让数百个机器人在数百个厨房里高速并行计算与探索。如今看来,这个问题似乎也没有那么难了。
AI 科技评论:听起来灵巧手领域出现了不少新变量,正在重构行业。
叶琦:我看好灵巧手方向。虽然在未来五年内,想要妥善解决灵巧手相关问题有些难度,但我个人秉持乐观态度。
受益于机械本体的不断进步、大模型的蓬勃发展、3D生成技术的日益成熟,再结合强化学习以及诸多底层能力的集成,在未来 5 到 10 年,灵巧手会是一个极具 promising(发展前景)的方向。在一些限制性场景下,针对部分特定需求,机器人是能够完成大部分操作的,比如叠衣服这类任务,肯定是能实现的。
然而,要想在十年内让机器人实现与人并排行走,并且可以在非结构化的空间中自由地与人交互,我认为会有挑战。但若是极为常规化的工作,像把碗放置到池子里,或者将瓶瓶罐罐摆放整齐,我觉得机器人是能够做到的。
AI 科技评论:作为一名跨界研究者,哪些底层理论或方法论的迁移让你产生了新理解?原领域的思维惯性有带来哪些新视野吗?
叶琦:原先机器人领域存在一个问题,大家的硬件系统并不一样,也没有公开统一的 Benchmark、数据集和评测标准,没法很好对比不同算法。过往研究往往局限于单一问题,通过采集小规模数据、针对特定任务展开,完成后就结束了,难以客观评价算法优劣。多数情况下,就是用一个实物机器人去做一个demo,去跑一跑,看着效果还不错。
但就我自己来看,我的东西和别人的东西虽然看起来差不多,但我很难知道哪个更好。
当我从视觉领域转向机器人研究时,我会觉得很奇怪,因为视觉领域会有公开的 Benchmark,能够衡量算法好坏,也有大量数据集可以做 Learning,但机器人没有。机器人本体异构性是该领域独特的挑战。
尽管如此,这一两年里,你可以看到无论是学界还是产业界,都在着力构建数据集、VLA及公开平台,试图将分散的数据集整合统一平台,降低使用门槛。
从计算机视觉领域跨界而来的研究者,正将“视觉方法论”引入机器人领域:建立公开 Benchmark、共享平台以及标准化评测任务,让大家能够基于此开展评测,可以更直观比较算法优劣。在这一基础上,机器人领域才能够更好地快速发展,不然会很难复现别人的代码,也就没法在上面持续迭代优化。
AI 科技评论:听说你们在数据集的构建上有很多创新性突破,你们最初设计数据集的核心动机是什么?
叶琦:我们很早在做数据集,GraspM3 数据集的生成算法在 2024 年 ICRA 上发布了。ICRA24 的工作提出,主要是因为发现现有的抓取动态动作的数据在数量和轨迹上都比较有限,所以我们想自己先做一个数据集。因为不想进行人工标注和采集,所以我们设计可以自动生成抓取轨迹算法,通过仿真获得数据集。
我们有两个数据集在推进中,有一个论文已经被 ICLR25 录用。我们采集了十几个人类操作的任务,涵盖拧瓶盖、插拔等二爪难以完成的复杂操作,这也是业界首次实现带触觉的灵巧手操作数据。基于这一数据,我们训练了 6 个任务,能实现两个灵巧手间物体抛接、拧瓶盖、传递薯片等任务。
通过我们初步的带有视觉、触觉的训练数据集,经过预训练后显著提升对下游任务的执行效果。在完成上述复杂操作任务时,当前成功率已经能达到 80%。关键是,我们没有采用任务的supervision,只使用了 MAE 自监督方式去学习,发现学习出来的 attention 机制可以直接注意到手指接触物体的瞬间,比如注意到手指打开盒子时的那一瞬间。我跟学生说这太牛了,我压根没想到居然可以学习到这种程度。
AI 科技评论:这个现象为什么让你这么诧异?
叶琦:我们对比的只有视觉,没有触觉。以何凯明的 Masked Auto Encoder(掩码自动编码器)工作为例,通过预训练可以助力下一个工作,但如果没有触觉信号辅助监督,是根本不会 attention 到物体将要发生变化的区域,也不会 attention 到手指的区域。我们没有引入任何监督信号,只是做了个多模态的自动编码器(Autoencoder,AE),也只有一个图像和触觉信号,没想到实验效果非常出乎意外。
我最近在看脑认知领域的一些工作,发现人脑也有类似机制:通过神经元将人的动作与触觉、视觉进行联合处理。而我们的研究表明,引入触觉模态后,网络能够自动集中在物体动态区域,并且我们都没有用多帧、只是单帧形式。从实验情况来看,这与神经科学中的部分理论形成了印证,这也是我自己在这些工作中感到很惊喜的瞬间。
也是因为这些成果,让我们更加坚定要走这条路,从触觉-动作态关联入手,通过视频采集更多人类操作数据,逐步推进上半身及全身操作的工作。
AI 科技评论:从你们之前发布的灵巧手操作视频中可以看到物品抓取流畅,这项工作主要是解决什么问题?
叶琦:主要是解决灵巧手抓取异形物体的难题。以抓取杯子为例,人类习惯手持杯柄,而现有灵巧手 demo 中大多抓取杯身;抓取高脚杯时,人类倾向于握持底部,灵巧手依然还是抓杯身,它抓底部可能就握不稳了。
灵巧手的抓取与二爪可能有点像。反观工业领域的二指夹爪技术,上海交通大学卢策吾教授于 2020 年发布的 GraspNet-1Billion 数据集,已经实现对各类物体抓取策略的全覆盖,能够解决工业领域大部分“拾取-放置”(pick and place)工作。二指夹爪相关工作,卢老师已经做得很好了。
未来人形机器人的操作,无论是二爪还是五爪,重点其实不在 pick and place上,而是 pick 之后要去完成某个任务,比如把杯子抓起来后,还能递给别人,或者是能够在一些比较挑战的区域把物体顺滑抓起来。这不是简单“拾取与放置”,得去服务于特定目标。
我们希望通过我们这一数据集实现灵巧手对物体难握区域的流畅抓取。纯粹依赖强化学习策略,只是将物体抓起来。因为动作行为是由 reward 机制驱动,难以精准定义一个“优雅抓取”的动作特质(如目标抓取方位等),也就难以设计一个奖励机制。
为此,我们数据集的构建方法是:通过静态抓取手势,比如我知道大部分人是抓取杯子把柄,那最后我生成轨迹就是针对这一行为生成动态手势,让灵巧手的操作更符合人类的自然抓取习惯。
AI 科技评论:在构建数据集时,你们优先采用的核心数据采集策略是什么?更侧重真实场景实操采集、仿真环境批量生成,还是虚实结合的混合方案?
叶琦:遥操作获取数据是有价值的,但我认为比较便捷的数据来源还是人类自身行为数据。这基于两点依据:其一,以 GPT 为例,其核心能力源于对人类问答数据的学习,先通过大规模人类数据训练,再借助强化学习优化 reward 机制。同理, 我认为要赋予实体机器人或人形机器人以通用操作能力,其数据也应该是来自于人类。
其二,遥操作依赖人类操控机械臂采集数据,尽管数据质量高,但成本太昂贵了。像马斯克一套采集设备可能都得几十万、一百万,而一个工厂里可能需要几百套设备,按每小时 50 美元的人工成本计算,开销巨大。
尽管未来硬件可能降价实现降本,但遥操作多采用二爪或五爪机械臂,数据迁移时会面临操作末端的异构性问题,要进行动作数据重定向。如果人手可视为一种抽象的异构机械臂,为何不直接从人类行为数据中学习?通过视频采集人类操作,既能以更低成本获取海量数据,又能支持大规模训练,为机器人注入通用能力。
我的研究思路是:不一定通过机器人遥操作数据采用 VLA 方式,而是通过解析人类视频信息(如动作轨迹、触觉位置)提取操作先验,将其与机器人自主探索训练相结合。例如,通过视频重建操作场景、定位人手运动轨迹,这些是能直接训练机器人的数据。具体而言,机器人技能训练分为两个部分:一是通过强化学习优化灵巧手底层控制策略,提升执行精度;二是从视频中重建场景,理解人类在真实场景中的操作逻辑。
我们的数据集价值在于实现“无遥操作的人类经验迁移”,直接从视频中最大程度提取人类经验学习,再结合仿真环境进行技能校准与泛化。这一思路也符合人类学习本质:并非别人的动作是什么,我们观察后每一步都能做到精确复现(我们也无法精确复现每一步)。就像小孩学习,妈妈先通过演示教一遍,后面还是小孩自己一步步与环境交互后逐渐掌握技能,要是没抓住东西掉了,那就再抓紧一点。
AI 科技评论:尽管基于视频的视觉模仿学习在效率上有着显著优势,但现在可以看到很多企业还是会选择通过遥操方式进行数据采集。
叶琦:我觉得选择遥操方式是他们压力所在,遥操可以直接通过监督学习快速得到一个不错的操作demo。一开始我们课题组有老师专门做遥操,我尝试后发现远程操控灵巧手抓取物体很难,更别提大规模高效地采集类似拧开瓶盖等任务。我发现这条路线搞不动,马上就放弃了,决定转向视频数据采集。
我去参观一些企业时,体验了他们的遥操作系统,我发现需要来来回回操作好多次才能把物体抓起来、放下去。 一个人经过训练后可以快速上手,但如果未经过特定培训,一个简单的“抓取-放下”动作,一分钟都不一定能够完成。
AI 科技评论:相较于遥操作,通过视频获取人类学习数据时,主要面临哪些独特的技术难点?
叶琦:如果是有每一步的动作数据,算法相对会更直接一些。视频数据肯定是没有那么精确的,会有噪声,没法直接做 VLA 模仿学习,从这一层面看,算法挑战会更大,但它带来的潜力也可能会更大,因为它更便宜,规模量可以上去,而且更自然。
我不知道最后是 VLA 更强,还是从人类视频学习路线更强,因为 VLA 也可以迭代,刚开始是采集小数据,特别是对工业界来讲,可以先在一些有限场景里操作起来,后面通过批量卖出机器人,能利用采集回来的更多数据进行训练。但对于高校研究而言,没法在工业里实现数据迭代。不过这两条技术路线在未来是可以融合在一起,相当于低质量数据与高质量数据相结合。
雷峰网雷峰网雷峰网