从炒菜到缝针！斯坦福炒虾团队打造自主「AI达芬奇」，苦练神指当外科医生

斯坦福炒虾机器人作者，又出新作了！通过模仿学习，达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是，以上动作全部都是它自主完成的。

斯坦福炒虾机器人作者，又出新作了。

这次，机器人不是给我们炒饭了，而是给我们做外科手术！

最近，约翰霍普金斯和斯坦福大学的研究者们，进行了一项新的探索——

著名的医疗机器人达芬奇，是否可以通过模仿学习，来学习外科手术的操作任务呢？

经过实验后，他们成功了！

组织操作、针头处理和打结这三项基本的手术任务，达芬奇都可以自己独立完成了。

首先是需要医学生苦练指法的缝合打结技术，只见达芬奇「飞针走线」，很熟练地就可以把结打好：

接下来是针的拾取和移交，达芬奇也能够一次精准操作，动作绝无拖泥带水。

第三大任务是提起组织，可以看到达芬奇选择了正确着力点，轻松提起了组织。

最重要的是，以上动作全部都是达芬奇自主完成的！

翻开研究作者一栏，赫然出现了炒虾机器人的作者Tony Zhao和Chelsea Finn。

果然，这种程度的精细操作，怎么看都有一股熟悉的味道。

论文地址：https://arxiv.org/abs/2407.12998

博客地址：https://surgical-robot-transformer.github.io/

要知道，跟家庭环境中的桌面操作相比，手术任务需要精确操纵可变形物体，还要面对不一致的照明和遮挡的硬感知问题。

另外，手术机器人通常可能还有不准确的本体感觉和迟滞。

这些问题，他们都是如何克服的？

大型临床数据存储库，机器人可以学习了

大规模模仿学习，在操作任务的通用系统上显示出了巨大的前景，比如让机器人给我们做家务。

不过这次研究者们盯上的，是外科领域。

外科领域是一个尚未开发、潜力巨大的领域，尤其是在达芬奇手术机器人的加持之下。

截止2021年，全球已经有67个国家使用了6500套达芬奇系统，进行了超过1000万例手术。

而且，这些手术的过程都被全程记录了下来，从而让我们有了大量的演示数据存储库。

如此大规模的数据，能否利用起来，构建一个自主手术的通才系统？

然而，当研究者们下手研究时却发现：让达芬奇机器人通过模仿学习来做外科手术，存在一个难点——

由于达芬奇系统本身的特殊性，就导致了独特的挑战，阻碍了模仿学习的实施。

右上是真实的医疗环境，右下是研究人员的实验设置

而且，由于联合测量不精确，其正向运动学就会不一致，如果只是简单地使用这种近似运动学数据训练一个策略，通常会导致任务的失败。

很简单的视觉伺服任务，机器人也无法执行。训练输出绝对末端执行器姿势的策略（这是训练机器人策略的常用方法），在所有任务中的成功率都接近于0。

怎样克服这种限制？

团队发现，达芬奇系统的相对运动，比它的绝对正向运动学更加一致。

因此，他们想到一个办法：引入一种相对动作公式，使用它的近似运动学数据，来进行策略训练和部署。

他们考虑了以下三个选项：以相机为中心、以工具为中心和混合相关操作。

以相机为中心的动作表示是一种基线方法，它将动作建模为末端执行器相对于内窥镜尖端的绝对姿势。另外两个是定义相对于当前工具（即末端执行器）框架或内窥镜尖端框架的动作的相对公式

然后，使用图像作为输入和上述动作表示，来训练策略。

这一点，他们的做法跟此前的工作不一样，后者会使用运动学数据作为输入，然而在这项工作中，达芬奇的运动学数据可能并不可靠。

他们的模型基于ACT，一种基于Transformer的架构。

团队提出了一种策略设计，仅将图形作为输入，并输出相对姿态轨迹

如果这种方法成功，那么包含近似运动学的大型临床数据存储库，就可以直接用于机器人学习，而无需进一步校正了。

这对于机器人的临床手术操作，无疑意义重大。

果然，在引入相对动作公式后，团队便利用近似运动学数据，在达芬奇上成功地演示了模仿学习，不仅不需要进一步的运动学矫正，而且效果也大大优于基线方法。

实验表明，模仿学习不仅可以有效地学习复杂的手术任务，还能推广到新的场景，比如在看不见的真实人体组织上。

另外，腕式摄像机对于学习手术操作任务，也十分重要。

现在，除了之前已经展示的组织操作、针头处理和打结等自主任务外，达芬奇机器人还可以完成下面多种操作。

零样本泛化

斯坦福团队的模型显示出了适应新场景的能力，例如在出现未知的动物组织的情况下。

这是一段达芬奇在缝合猪肉并打结的视频——

换成是鸡肉，达芬奇也能精确地拿起放在肉表面的手术针。

这显示出其在未来临床研究中进行扩展的前景。

重试行为

那么，如果存在一些环境扰动，达芬奇是否还能稳定发挥呢？

可以看到，在其他器械突然闯入，并将手术缝合线故意剥落之后，达芬奇并没有停下动作，仍然将打结行为进行了下去。

在下面整段视频中，达芬奇在第一次操作中没有拾起手术针，它很快意识到了这一事实，通过自动调整成功拾取。

重复性测试

临床手术非同儿戏，必须保证临床机器人具有可重复性，「万无一失」是其必要能力。

研究团队放出了达芬奇的重复性测试视频，在不同视角下观察它的多次操作，基本无可挑剔。

技术路径

如下图所示，达芬奇机器人的dVRK系统，由一个内窥镜摄像操纵器（ECM）和两个共享同一机器人底座的患者侧操纵器（PSM1、PSM2）组成。

每个手臂都是被动设置关节的顺序组合，而后面是机动主动关节。

然而，一般情况下，如果在所有关节中都使用电位器，会导致手臂的正向运动学不准确，甚至有高达5厘米的误差。

不幸的是，dVRK提供的正向运动学数据并不稳定。这是因为设置关节（蓝色）仅使用电位计进行关节测量，并不可靠。主动关节（粉色）同时使用电位器和电机编码器，提高了精度

为了让达芬奇完成通过模仿学习来完成手术操作任务这一目标，鉴于机器人的前向运动学不准确，团队提出了前文中所提到的三种动作表示法，其中混合相对方法进一步提高了平移动作的准确性。

执行细节

为了训练可行的策略，研究使用带有Transformer的动作分块(ACT)和扩散策略。

他们使用了内窥镜和手腕相机图像作为输入来训练策略，这些图像均缩小为224x224x3的图像尺寸。

手术内窥镜图像的原始输入尺寸为1024x1280x3，手腕图像为480x640x3。

运动学数据不像其他模仿学习方法中常见的那样作为输入提供，这是因为由于dVRK的设计限制，运动学数据通常不一致。

策略输出包括末端执行器(delta) 位置、(delta) 方向和双臂下颌角度。

实验过程

在这次实验中，研究者的目标是弄清这些问题的答案——

1. 模仿学习是否足以应对复杂的外科操作任务？

2. dVRK的相对运动是否比其绝对前向运动学更稳定？

3. 使用腕式摄像头是否对提高成功率至关重要？

4. 模型在未见过的新场景中能否有效泛化？

首先需要评估的是，达芬奇的相对运动是否比其绝对前向运动学更加一致。

评估方法是在不同的机器人配置下，使用绝对与相对运动公式重复记录参考轨迹。

具体来说，机器人需要在模拟人体腹部的圆顶，使用相同的孔，将手臂和内窥镜大致放置在相似的位置。

这项任务不简单，因为孔比内窥镜和工具轴的尺寸大得多，而且必须通过移动安装接头，将工具手动放置到孔中。

总体而言，实验表明，在存在测量误差的情况下，相对运动的一致性更高。因此，将策略动作建模为相对运动是更好的选择。

在这项配置中，共收集了224次组织提起实验、250次针的拾取和移交实验，以及500次打结实验

图5展示了在各种机器人配置下重复录制的参考轨迹，以此来测试所有动作表示的可重复性。

左图显示了所有动作表示法的参考轨迹的完美重构，因为自参考轨迹采集以来，机器人关节没有移动过。

而当机器人向左或向右移动时（中、右图），以摄像头为中心的动作表示法无法跟踪参考轨迹，而相对动作表示法则能很好地跟踪参考轨迹。

各种机器人配置下的轨迹跟踪

除此之外，团队还评估了使用各种动作表示法训练的模型的任务成功率。

结果表明，使用相对动作表述（以工具为中心的动作表述和混合相对动作表述）训练出来的策略表现良好，而使用绝对正向运动学训练出来的策略则失败了。

而在下图中，最上面一行，就是组织提起任务中，机器人需要抓住橡胶垫（组织）的一角，将其向上提起。

在训练期间，组织的一角保持着红色框内，显示测试时角的配置。

中间一行，是针的拾取和移交。

在训练过程中，针被随机放在了红色盒子内。测试时，针的中心隆起被放置在如图所示的9个位置，以在评估期间强制执行一致的设置。

下面一行，机器人在打结的过程中，需要使用左侧的绳子形成一个环，通过环来抓住绳子的末端，然后将夹具拉离彼此。

在训练期间，来自垫子的绳子位置随机放在红色方框内，而测试时，绳子被放在红色方框中央。

下面的视频显示了使用手臂的绝对前向运动学（以摄像头为中心的动作）训练策略的结果。

由于达芬奇手臂的前向运动学存在误差，在训练和推理之间会发生显著变化，因此这些策略无法完成任务。

而且，研究人员还观察到，在学习外科手术操作任务时，腕部摄像头能带来显著的性能提升。

显然，能够自主学习的手术机器人，有望在未来进一步扩展外科医生的能力。

参考资料：

https://surgical-robot-transformer.github.io/