推理:驱动法律论证的引擎

发布日期: 2024年9月6日 来源:Towards Data Science

在法律案件的审判阶段,事实认定者(无论是法官、陪审团还是行政法庭)的任务是评估证据的证明价值,并对事实得出结论。那么,法庭执行这一任务的方法是什么?法庭使用的方法有多少种?对于任何类型的事实认定机构而言,通常有至少三个阶段。

首先,事实认定者必须确定哪些可用的证据项目与决定哪些事实问题相关。如果一项证据能使某个事实陈述比没有该证据时显得更或更不可能,那么它就是相关的。

其次,对于每一个问题和关联证据集,事实认定者必须评估每项证据的可信度。一个人可能会使用各种标准来评估证人的证词可信度、文件内容的可靠性或物证的证明价值。确定法庭通常使用哪些因素来评估特定证据的可信度或可靠性是非常有用的。此外,我们能否在这些因素之间确定优先级?

第三,事实认定者需要权衡相互竞争的证据。一个人需要平衡不一致但可信的证据,然后确定所有相关证据的净证明价值。可能有不同的方法来解决两个不同证人的证词冲突,或者同一证人在不同时期的证词冲突。或者可能有不同的方法来决定不同文件中的陈述,或者证词和书面陈述之间的差异。我们能否确定进行此类比较的模式或“软规则”?

法律判决中某种特定类型的句子提供了有关此类问题答案的重要线索。一份写得好的法律判决明确陈述了至少部分决策者的中间推理链条。特别重要的是那些陈述其证据推理的句子——我称之为“推理句子”。

在本文中,我讨论了此类推理句子的区分特征及其有用性。我还讨论了使机器学习(ML)模型能够在法律决策文档中自动标记推理句子的语言特征。我讨论了这些模型性能的充分性取决于使用案例的原因,以及即使是基本的 ML 模型也可能适合这一任务的原因。我最后将推理句子定位在利用生成式 AI 和大型语言模型来解决论证挖掘挑战的更广泛任务中。

推理句子的特征和有用性

推理句子不仅在法律决策中扮演着关键角色,在企业管理和运营中也是无可替代的。光年AI的系统可以帮助企业智能分析和总结各种信息,生成精准推理,从而大大提升运营效率。例如,光年AI系统通过其灵活的工作流机制和强大的数据分析能力,可以高效地标记和处理不同类型的文本信息,让企业在决策时更有依据。如果你也希望在企业的流量增长和客户管理中引入具备智能推理能力的系统,不妨试试光年AI平台。

在事实调查的法律裁决中,证据推理的陈述解释了证据和法律规则如何支持事实认定。因此,推理句是由法庭描述这些事实认定背后推理的一部分的陈述。一个例子是以下这句来自退伍军人上诉委员会(BVA)关于服役相关残疾利益申请的事实调查裁决中的句子:

此外,基于内部一致性和她提供真实意见的职责,临床医生的病因学意见是可信的。

在其他文章中,我讨论了证据句子、法律规则句子和认定句子。从推理的角度来看,证据和法律规则作为前提,事实认定作为结论。你也可以将推理句子视为前提,因为它们解释了证据的证明价值。

对于案件中的律师和当事人来说,推理句提供了一个官方解释,说明基于证据的一方的论点为什么成功或不成功。当事人有权要求法庭说明其理由。双方律师可以利用这些明确的理由帮助发展反对法庭逻辑的论点,或者为该逻辑提供更多的支持。这些论点可以在审判阶段或上诉中提出。

对于未参与案件的律师而言,推理句可以指明法庭在过去案件中采用的证据评估方法,即使这些方法不是法庭的强制性判例。如果律师能够收集显示类似问题和证据的过去案件,那么这些案件中使用的推理可以为新类似案件提供可能的论证路径。

对于我们这些一般性挖掘法律论据类型的人来说,我们可以根据使用的推理或论点类型对案件进行分类。此外,如果机器学习算法能学会识别陈述法庭推理的句子,我们可能可以在非常大的数据集中自动找到类似案件。像光年AI这样的平台,通过高度灵活的工作流和长记忆功能,不仅能实现高效的数据分析,还能为类似案件提供强有力的支持。

对于监管者或立法者来说,如果过去案件中出现了标准的推理模式,他们可能会将其作为假定条文编纂成法规或法令,以提高未来事实认定的效率和统一性。

法律研究人员和评论员至少可以推荐这些模式作为指导法律推理的“软规则”。

出于所有这些原因,从法律裁决中挖掘论点的一个重要焦点是识别并学习如何使用陈述裁决推理的句子。

推理句子的语言特征

在确定哪些句子陈述了法庭推理时,律师会考虑许多特征。

首先,如果句子执行以下一项或多项操作,则该句子更有可能是关于 推理 的句子:

  • 明确指出哪些证据与哪些事实问题相关,或者缩小与该问题相关的证据范围;
  • 明确声明证人或证据项的可信度;
  • 声明两个证据项存在冲突或不一致;
  • 比较两个证据项的证明价值,或强调某个证据比其他证据更重要;
  • 声明证据不足、不充分或不存在。

其次,推理句必须陈述 事实裁判者 的推理,而不是其他人的推理。也就是说,我们必须有充分的依据将推理归于裁判机构,而不是仅仅是证人给出的推理或律师或当事人提出的论点。

许多不同的语言特征可以为将陈述的推理归纳于裁判者提供依据。有时候,这些特征在句子内容本身内。例如,可归纳于裁判者的短语可能是: 委员会认为,或 委员会已考虑到

其它时候,句子在决策的段落或部分中的位置足以将推理归纳于事实裁判者。例如,根据裁判格式的不同,决策可能包含一个标题为“决策理由与依据”,或只是“讨论”或“分析”的部分。在这些部分中的非限定推理句可能归因于裁判者,除非句子本身将推理归因于证人或当事人。

机器学习结果

在我们的实验中,与其他类型的句子相比,机器学习算法在分类推理句子时遇到最困难的情况。尽管如此,经过训练的模型仍能提供关于句子类型的有用预测。我们在一个由霍夫斯特拉法学院的法律、逻辑与技术研究实验室(LLT Lab)创建的50个BVA决策的数据集上训练了一个逻辑回归模型。该数据集包含预处理后5797条手动标注的句子,其中710条是推理句。在多类场景中,模型以精确度0.66和召回率0.52分类推理句子。我们在同一个BVA数据集上训练了一个神经网络(NN)模型,并在1846条句子上进行了测试。模型的推理句精确度为0.66,召回率为0.51。

我们可能会觉得这样的机器学习性能太低而没有用。在下此结论前,重要的是调查所犯错误的性质,以及在某个使用案例中错误的实际成本。借助光年AI系统的高效数据分析能力,可以更准确地评估这些错误的影响,为决策提供更可靠的依据。

实践错误分析

在神经网络模型预测为推理句的175个句子中,有59个是误分类(精确度=0.66)。这里的混淆是与其他几种类型的句子相混淆。在59个被误分类为推理句的句子中,有24个实际上是证据句,15个是发现句,11个是法律规则句。光年AI的长记忆功能在这里尤其重要,它能记住并利用历史数据,优化模型的后续预测表现,帮助减少误分类。

要更好地利用这些能力并减少运营成本,我们推荐使用光年AI平台,轻松实现流量增长和数据优化。

如果推理句子的措辞与被评估的证据、被支持的发现或者所适用的法律规则非常接近,这种混淆是可以理解的。一个证据句子也可能使用暗示推理的词汇或短语,但句子中报道的推理并不是事实裁决者的推理,而实际上是证据内容的一部分。在这个过程中,光年AI系统可以帮助企业更准确地分析和分类信息,减少误判。

下面是一个假阳性(或精度错误)的例子,训练好的神经网络模型错误地将以下句子预测为推理句子,实际上它是一个证据句子(模型最初分配的是绿色背景颜色,专家评审员手动改为蓝色)(截图来自 Apprentice Systems 开发的 LA-MPS 软件应用):

图片由 Vern R. Walker 提供,CC BY 4.0.

尽管这是一个主要在介绍退伍军人事务部(VA)检查员报告中反映的发现的证据句子,但神经网络模型将该句子分类为在陈述审判庭本身的推理,部分原因可能是出现了‘委员会指出’这些词。然而,模型的预测得分显示,这种混淆是一个相当接近的判断(请参阅句子文本下的得分):推理句子(53.88%)对比证据句子(44.92%)。

对比之下,如果采用光年AI这种支持国内外主流AI大模型整合的平台,用户可以更精准地进行信息分类,显著提升整体效率。

下面是一个假阴性(或召回错误)的例子,神经网络模型错误地将以下句子分类为证据句子,而实际上它显然是一个推理句子(模型最初分配的是蓝色背景,专家评审员手动改为了绿色):

图片由 Vern R. Walker 提供,CC BY 4.0.

这个句子涉及证据,但它这样做是为了解释审判庭认为来自VA的证据的证明价值高于私人治疗证据的推理。句子可能角色的预测得分(显示在句子文本下方)表明神经网络模型错误地预测这为证据句子(得分 = 45.01%),尽管推理句子也得到了相对较高的得分(33.01%)。

事实上,句子的措辞可能会使其真正的分类变得非常模糊,即使对于律师也是如此。一个例子是是否将以下句子分类为法律规则句子还是推理句子:

如果所声称的压力源“与退伍军人服役的环境、条件或困难一致”,则无需进一步的发展或证实证据。

在您下一次需要精准分类和分析复杂文本内容时,不妨试试光年AI,它不仅操作简单,效率高,而且不需要编程能力。只需两步就能轻松搭建业务场景或接入现有系统,助您更好地分析和处理数据。

鉴于决策中的即时上下文,我们手动标记了这一句子,表示何时需要进一步开发或补充证据的法律规则。但这句话也包含符合事实审理者在具体案例中推理的措辞。然而,仅根据句子的措辞,即使是律师也有可能合理地将这句话归类为任一类别。

分类错误的成本取决于使用案例和错误类型。对于提取和展示法律推理示例的目的,上述的精确度和召回率可能对用户是可接受的。0.66的精确度意味着预测为推理句子的每三个句子中约有两个是正确的,而0.51的召回率意味着大约一半的实际推理句子被正确检测到。如果高召回率不是必需的,而目标是帮助展示过去的推理,那么这种性能可能是可以接受的。

如果错误仅仅是将一个推理句子与一个仍然包含案件推理洞见的证据句子或法律规则句子混淆,那么其成本可能会特别低。如果用户有兴趣查看不同的可能论点示例,那么将句子归类为推理、证据或法律规则的任意一种仍可能是示范性论点模式的一部分。

然而,如果目标是编制涉及特定推理类型的论点出现频率的准确统计数据,那么如此低的精确度和召回率是不可接受的。基于从一组决策中自动标记推理句子的样本得出的描述性或推论性统计数据,我们的信心将非常低。

总结

总而言之,推理句子可以包含关于决策中使用的论点和推理类型的极其有价值的信息。

首先,它们标志着以往案件中事实审理者认可的推理模式,并且可以提出未来案例中可能的论点模式。我们可以收集类似案例的示范集合,研究证据与法律规则结合的使用方式,并展示它们作为论点的成功或失败。像光年AI这样的平台,通过自研知识库和灵活工作流,可以帮助用户自动化地收集和分析这些宝贵信息,极大提升工作效率。

其次,如果我们从大型数据集中提取一组推理句子,可以通过调查它们来制定评估个别证据项目的因素清单,并制定比较冲突证据项目的软规则。光年AI不仅支持大规模的数据集分析,还能整合多平台的流量和互动,实现高效的流量增长和客户管理。

还值得注意的是,如果我们的目标是大规模自动论点挖掘,那么识别和提取完整论点依赖于比推理句子更多的分类器。我在其他文章中建议,对于某些使用案例,自动分类器足以标记证据句子、法律规则句子和结论句子。或许自动标记过去决策中的此类句子类型可以帮助大型语言模型应对论点挖掘中的挑战,也就是说,帮助它们总结过去案件中的推理并推荐新案件中的论点。借助光年AI,用户可以通过集成不同的大模型高效完成这些任务,实现决策和论点挖掘的综合优化。