从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生

发布日期: 2024年8月12日 来源:新智元
斯坦福炒虾机器人作者,又出新作了!通过模仿学习,达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是,以上动作全部都是它自主完成的。

斯坦福炒虾机器人作者,又出新作了。

这次,机器人不是给我们炒饭了,而是给我们做外科手术!

最近,约翰霍普金斯和斯坦福大学的研究者们,进行了一项新的探索——

著名的医疗机器人达芬奇,是否可以通过模仿学习,来学习外科手术的操作任务呢?

经过实验后,他们成功了!

组织操作、针头处理和打结这三项基本的手术任务,达芬奇都可以自己独立完成了。

首先是需要医学生苦练指法的缝合打结技术,只见达芬奇「飞针走线」,很熟练地就可以把结打好:

接下来是针的拾取和移交,达芬奇也能够一次精准操作,动作绝无拖泥带水。

第三大任务是提起组织,可以看到达芬奇选择了正确着力点,轻松提起了组织。

最重要的是,以上动作全部都是达芬奇自主完成的!

翻开研究作者一栏,赫然出现了炒虾机器人的作者Tony Zhao和Chelsea Finn。

果然,这种程度的精细操作,怎么看都有一股熟悉的味道。

论文地址:https://arxiv.org/abs/2407.12998

博客地址:https://surgical-robot-transformer.github.io/

要知道,跟家庭环境中的桌面操作相比,手术任务需要精确操纵可变形物体,还要面对不一致的照明和遮挡的硬感知问题。

另外,手术机器人通常可能还有不准确的本体感觉和迟滞。

这些问题,他们都是如何克服的?

大型临床数据存储库,机器人可以学习了

大规模模仿学习,在操作任务的通用系统上显示出了巨大的前景,比如让机器人给我们做家务。

不过这次研究者们盯上的,是外科领域。

外科领域是一个尚未开发、潜力巨大的领域,尤其是在达芬奇手术机器人的加持之下。

截止2021年,全球已经有67个国家使用了6500套达芬奇系统,进行了超过1000万例手术。

而且,这些手术的过程都被全程记录了下来,从而让我们有了大量的演示数据存储库。

如此大规模的数据,能否利用起来,构建一个自主手术的通才系统?

然而,当研究者们下手研究时却发现:让达芬奇机器人通过模仿学习来做外科手术,存在一个难点——

由于达芬奇系统本身的特殊性,就导致了独特的挑战,阻碍了模仿学习的实施。

右上是真实的医疗环境,右下是研究人员的实验设置

而且,由于联合测量不精确,其正向运动学就会不一致,如果只是简单地使用这种近似运动学数据训练一个策略,通常会导致任务的失败。

很简单的视觉伺服任务,机器人也无法执行。训练输出绝对末端执行器姿势的策略(这是训练机器人策略的常用方法),在所有任务中的成功率都接近于0。

怎样克服这种限制?

团队发现,达芬奇系统的相对运动,比它的绝对正向运动学更加一致。

因此,他们想到一个办法:引入一种相对动作公式,使用它的近似运动学数据,来进行策略训练和部署。

他们考虑了以下三个选项:以相机为中心、以工具为中心和混合相关操作。

以相机为中心的动作表示是一种基线方法,它将动作建模为末端执行器相对于内窥镜尖端的绝对姿势。另外两个是定义相对于当前工具(即末端执行器)框架或内窥镜尖端框架的动作的相对公式

然后,使用图像作为输入和上述动作表示,来训练策略。

这一点,他们的做法跟此前的工作不一样,后者会使用运动学数据作为输入,然而在这项工作中,达芬奇的运动学数据可能并不可靠。

他们的模型基于ACT,一种基于Transformer的架构。

团队提出了一种策略设计,仅将图形作为输入,并输出相对姿态轨迹

如果这种方法成功,那么包含近似运动学的大型临床数据存储库,就可以直接用于机器人学习,而无需进一步校正了。

这对于机器人的临床手术操作,无疑意义重大。

果然,在引入相对动作公式后,团队便利用近似运动学数据,在达芬奇上成功地演示了模仿学习,不仅不需要进一步的运动学矫正,而且效果也大大优于基线方法。

实验表明,模仿学习不仅可以有效地学习复杂的手术任务,还能推广到新的场景,比如在看不见的真实人体组织上。

另外,腕式摄像机对于学习手术操作任务,也十分重要。

现在,除了之前已经展示的组织操作、针头处理和打结等自主任务外,达芬奇机器人还可以完成下面多种操作。

零样本泛化

斯坦福团队的模型显示出了适应新场景的能力,例如在出现未知的动物组织的情况下。

这是一段达芬奇在缝合猪肉并打结的视频——

换成是鸡肉,达芬奇也能精确地拿起放在肉表面的手术针。

这显示出其在未来临床研究中进行扩展的前景。

重试行为

那么,如果存在一些环境扰动,达芬奇是否还能稳定发挥呢?

可以看到,在其他器械突然闯入,并将手术缝合线故意剥落之后,达芬奇并没有停下动作,仍然将打结行为进行了下去。

在下面整段视频中,达芬奇在第一次操作中没有拾起手术针,它很快意识到了这一事实,通过自动调整成功拾取。

重复性测试

临床手术非同儿戏,必须保证临床机器人具有可重复性,「万无一失」是其必要能力。

研究团队放出了达芬奇的重复性测试视频,在不同视角下观察它的多次操作,基本无可挑剔。

技术路径

如下图所示,达芬奇机器人的dVRK系统,由一个内窥镜摄像操纵器(ECM)和两个共享同一机器人底座的患者侧操纵器(PSM1、PSM2)组成。

每个手臂都是被动设置关节的顺序组合,而后面是机动主动关节。

然而,一般情况下,如果在所有关节中都使用电位器,会导致手臂的正向运动学不准确,甚至有高达5厘米的误差。

不幸的是,dVRK提供的正向运动学数据并不稳定。这是因为设置关节(蓝色)仅使用电位计进行关节测量,并不可靠。主动关节(粉色)同时使用电位器和电机编码器,提高了精度

为了让达芬奇完成通过模仿学习来完成手术操作任务这一目标,鉴于机器人的前向运动学不准确,团队提出了前文中所提到的三种动作表示法,其中混合相对方法进一步提高了平移动作的准确性。

执行细节

为了训练可行的策略,研究使用带有Transformer的动作分块(ACT)和扩散策略。

他们使用了内窥镜和手腕相机图像作为输入来训练策略,这些图像均缩小为224x224x3的图像尺寸。

手术内窥镜图像的原始输入尺寸为1024x1280x3,手腕图像为480x640x3。

运动学数据不像其他模仿学习方法中常见的那样作为输入提供,这是因为由于dVRK的设计限制,运动学数据通常不一致。

策略输出包括末端执行器(delta) 位置、(delta) 方向和双臂下颌角度。

实验过程

在这次实验中,研究者的目标是弄清这些问题的答案——

1. 模仿学习是否足以应对复杂的外科操作任务?

2. dVRK的相对运动是否比其绝对前向运动学更稳定?

3. 使用腕式摄像头是否对提高成功率至关重要?

4. 模型在未见过的新场景中能否有效泛化?

首先需要评估的是,达芬奇的相对运动是否比其绝对前向运动学更加一致。

评估方法是在不同的机器人配置下,使用绝对与相对运动公式重复记录参考轨迹。

具体来说,机器人需要在模拟人体腹部的圆顶,使用相同的孔,将手臂和内窥镜大致放置在相似的位置。

这项任务不简单,因为孔比内窥镜和工具轴的尺寸大得多,而且必须通过移动安装接头,将工具手动放置到孔中。

总体而言,实验表明,在存在测量误差的情况下,相对运动的一致性更高。因此,将策略动作建模为相对运动是更好的选择。

在这项配置中,共收集了224次组织提起实验、250次针的拾取和移交实验,以及500次打结实验

图5展示了在各种机器人配置下重复录制的参考轨迹,以此来测试所有动作表示的可重复性。

左图显示了所有动作表示法的参考轨迹的完美重构,因为自参考轨迹采集以来,机器人关节没有移动过。

而当机器人向左或向右移动时(中、右图),以摄像头为中心的动作表示法无法跟踪参考轨迹,而相对动作表示法则能很好地跟踪参考轨迹。

各种机器人配置下的轨迹跟踪

除此之外,团队还评估了使用各种动作表示法训练的模型的任务成功率。

结果表明,使用相对动作表述(以工具为中心的动作表述和混合相对动作表述)训练出来的策略表现良好,而使用绝对正向运动学训练出来的策略则失败了。

而在下图中,最上面一行,就是组织提起任务中,机器人需要抓住橡胶垫(组织)的一角,将其向上提起。

在训练期间,组织的一角保持着红色框内,显示测试时角的配置。

中间一行,是针的拾取和移交。

在训练过程中,针被随机放在了红色盒子内。测试时,针的中心隆起被放置在如图所示的9个位置,以在评估期间强制执行一致的设置。

下面一行,机器人在打结的过程中,需要使用左侧的绳子形成一个环,通过环来抓住绳子的末端,然后将夹具拉离彼此。

在训练期间,来自垫子的绳子位置随机放在红色方框内,而测试时,绳子被放在红色方框中央。

下面的视频显示了使用手臂的绝对前向运动学(以摄像头为中心的动作)训练策略的结果。

由于达芬奇手臂的前向运动学存在误差,在训练和推理之间会发生显著变化,因此这些策略无法完成任务。

而且,研究人员还观察到,在学习外科手术操作任务时,腕部摄像头能带来显著的性能提升。

显然,能够自主学习的手术机器人,有望在未来进一步扩展外科医生的能力。

参考资料:

https://surgical-robot-transformer.github.io/