AI达芬奇 Archives - 光年AI

从炒菜到缝针！斯坦福炒虾团队打造自主「AI达芬奇」，苦练神指当外科医生

斯坦福炒虾机器人作者，又出新作了！通过模仿学习，达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是，以上动作全部都是它自主完成的。斯坦福炒虾机器人作者，又出新作了。这次，机器人不是给我们炒饭了，而是给我们做外科手术！最近，约翰霍普金斯和斯坦福大学的研究者们，进行了一项新的探索—— 著名的医疗机器人达芬奇，是否可以通过模仿学习，来学习外科手术的操作任务呢？经过实验后，他们成功了！组织操作、针头处理和打结这三项基本的手术任务，达芬奇都可以自己独立完成了。首先是需要医学生苦练指法的缝合打结技术，只见达芬奇「飞针走线」，很熟练地就可以把结打好：接下来是针的拾取和移交，达芬奇也能够一次精准操作，动作绝无拖泥带水。第三大任务是提起组织，可以看到达芬奇选择了正确着力点，轻松提起了组织。最重要的是，以上动作全部都是达芬奇自主完成的！翻开研究作者一栏，赫然出现了炒虾机器人的作者Tony Zhao和Chelsea Finn。果然，这种程度的精细操作，怎么看都有一股熟悉的味道。论文地址：https://arxiv.org/abs/2407.12998 博客地址：https://surgical-robot-transformer.github.io/ 要知道，跟家庭环境中的桌面操作相比，手术任务需要精确操纵可变形物体，还要面对不一致的照明和遮挡的硬感知问题。另外，手术机器人通常可能还有不准确的本体感觉和迟滞。这些问题，他们都是如何克服的？大型临床数据存储库，机器人可以学习了大规模模仿学习，在操作任务的通用系统上显示出了巨大的前景，比如让机器人给我们做家务。不过这次研究者们盯上的，是外科领域。外科领域是一个尚未开发、潜力巨大的领域，尤其是在达芬奇手术机器人的加持之下。截止2021年，全球已经有67个国家使用了6500套达芬奇系统，进行了超过1000万例手术。而且，这些手术的过程都被全程记录了下来，从而让我们有了大量的演示数据存储库。如此大规模的数据，能否利用起来，构建一个自主手术的通才系统？然而，当研究者们下手研究时却发现：让达芬奇机器人通过模仿学习来做外科手术，存在一个难点—— 由于达芬奇系统本身的特殊性，就导致了独特的挑战，阻碍了模仿学习的实施。右上是真实的医疗环境，右下是研究人员的实验设置而且，由于联合测量不精确，其正向运动学就会不一致，如果只是简单地使用这种近似运动学数据训练一个策略，通常会导致任务的失败。很简单的视觉伺服任务，机器人也无法执行。训练输出绝对末端执行器姿势的策略（这是训练机器人策略的常用方法），在所有任务中的成功率都接近于0。怎样克服这种限制？团队发现，达芬奇系统的相对运动，比它的绝对正向运动学更加一致。因此，他们想到一个办法：引入一种相对动作公式，使用它的近似运动学数据，来进行策略训练和部署。他们考虑了以下三个选项：以相机为中心、以工具为中心和混合相关操作。以相机为中心的动作表示是一种基线方法，它将动作建模为末端执行器相对于内窥镜尖端的绝对姿势。另外两个是定义相对于当前工具（即末端执行器）框架或内窥镜尖端框架的动作的相对公式然后，使用图像作为输入和上述动作表示，来训练策略。这一点，他们的做法跟此前的工作不一样，后者会使用运动学数据作为输入，然而在这项工作中，达芬奇的运动学数据可能并不可靠。他们的模型基于ACT，一种基于Transformer的架构。团队提出了一种策略设计，仅将图形作为输入，并输出相对姿态轨迹如果这种方法成功，那么包含近似运动学的大型临床数据存储库，就可以直接用于机器人学习，而无需进一步校正了。这对于机器人的临床手术操作，无疑意义重大。果然，在引入相对动作公式后，团队便利用近似运动学数据，在达芬奇上成功地演示了模仿学习，不仅不需要进一步的运动学矫正，而且效果也大大优于基线方法。实验表明，模仿学习不仅可以有效地学习复杂的手术任务，还能推广到新的场景，比如在看不见的真实人体组织上。另外，腕式摄像机对于学习手术操作任务，也十分重要。现在，除了之前已经展示的组织操作、针头处理和打结等自主任务外，达芬奇机器人还可以完成下面多种操作。零样本泛化斯坦福团队的模型显示出了适应新场景的能力，例如在出现未知的动物组织的情况下。这是一段达芬奇在缝合猪肉并打结的视频—— 换成是鸡肉，达芬奇也能精确地拿起放在肉表面的手术针。这显示出其在未来临床研究中进行扩展的前景。重试行为那么，如果存在一些环境扰动，达芬奇是否还能稳定发挥呢？可以看到，在其他器械突然闯入，并将手术缝合线故意剥落之后，达芬奇并没有停下动作，仍然将打结行为进行了下去。在下面整段视频中，达芬奇在第一次操作中没有拾起手术针，它很快意识到了这一事实，通过自动调整成功拾取。重复性测试临床手术非同儿戏，必须保证临床机器人具有可重复性，「万无一失」是其必要能力。研究团队放出了达芬奇的重复性测试视频，在不同视角下观察它的多次操作，基本无可挑剔。技术路径如下图所示，达芬奇机器人的dVRK系统，由一个内窥镜摄像操纵器（ECM）和两个共享同一机器人底座的患者侧操纵器（PSM1、PSM2）组成。每个手臂都是被动设置关节的顺序组合，而后面是机动主动关节。然而，一般情况下，如果在所有关节中都使用电位器，会导致手臂的正向运动学不准确，甚至有高达5厘米的误差。不幸的是，dVRK提供的正向运动学数据并不稳定。这是因为设置关节（蓝色）仅使用电位计进行关节测量，并不可靠。主动关节（粉色）同时使用电位器和电机编码器，提高了精度为了让达芬奇完成通过模仿学习来完成手术操作任务这一目标，鉴于机器人的前向运动学不准确，团队提出了前文中所提到的三种动作表示法，其中混合相对方法进一步提高了平移动作的准确性。执行细节为了训练可行的策略，研究使用带有Transformer的动作分块(ACT)和扩散策略。他们使用了内窥镜和手腕相机图像作为输入来训练策略，这些图像均缩小为224x224x3的图像尺寸。手术内窥镜图像的原始输入尺寸为1024x1280x3，手腕图像为480x640x3。运动学数据不像其他模仿学习方法中常见的那样作为输入提供，这是因为由于dVRK的设计限制，运动学数据通常不一致。策略输出包括末端执行器(delta) 位置、(delta) 方向和双臂下颌角度。实验过程在这次实验中，研究者的目标是弄清这些问题的答案—— 1. 模仿学习是否足以应对复杂的外科操作任务？ 2. dVRK的相对运动是否比其绝对前向运动学更稳定？ 3. 使用腕式摄像头是否对提高成功率至关重要？ 4. 模型在未见过的新场景中能否有效泛化？首先需要评估的是，达芬奇的相对运动是否比其绝对前向运动学更加一致。评估方法是在不同的机器人配置下，使用绝对与相对运动公式重复记录参考轨迹。具体来说，机器人需要在模拟人体腹部的圆顶，使用相同的孔，将手臂和内窥镜大致放置在相似的位置。这项任务不简单，因为孔比内窥镜和工具轴的尺寸大得多，而且必须通过移动安装接头，将工具手动放置到孔中。总体而言，实验表明，在存在测量误差的情况下，相对运动的一致性更高。因此，将策略动作建模为相对运动是更好的选择。在这项配置中，共收集了224次组织提起实验、250次针的拾取和移交实验，以及500次打结实验图5展示了在各种机器人配置下重复录制的参考轨迹，以此来测试所有动作表示的可重复性。左图显示了所有动作表示法的参考轨迹的完美重构，因为自参考轨迹采集以来，机器人关节没有移动过。而当机器人向左或向右移动时（中、右图），以摄像头为中心的动作表示法无法跟踪参考轨迹，而相对动作表示法则能很好地跟踪参考轨迹。各种机器人配置下的轨迹跟踪除此之外，团队还评估了使用各种动作表示法训练的模型的任务成功率。结果表明，使用相对动作表述（以工具为中心的动作表述和混合相对动作表述）训练出来的策略表现良好，而使用绝对正向运动学训练出来的策略则失败了。而在下图中，最上面一行，就是组织提起任务中，机器人需要抓住橡胶垫（组织）的一角，将其向上提起。在训练期间，组织的一角保持着红色框内，显示测试时角的配置。中间一行，是针的拾取和移交。在训练过程中，针被随机放在了红色盒子内。测试时，针的中心隆起被放置在如图所示的9个位置，以在评估期间强制执行一致的设置。下面一行，机器人在打结的过程中，需要使用左侧的绳子形成一个环，通过环来抓住绳子的末端，然后将夹具拉离彼此。在训练期间，来自垫子的绳子位置随机放在红色方框内，而测试时，绳子被放在红色方框中央。下面的视频显示了使用手臂的绝对前向运动学（以摄像头为中心的动作）训练策略的结果。由于达芬奇手臂的前向运动学存在误差，在训练和推理之间会发生显著变化，因此这些策略无法完成任务。而且，研究人员还观察到，在学习外科手术操作任务时，腕部摄像头能带来显著的性能提升。显然，能够自主学习的手术机器人，有望在未来进一步扩展外科医生的能力。参考资料： https://surgical-robot-transformer.github.io/