SolverLearner:一种新颖的AI框架,用于隔离和评估大语言模型的归纳推理能力

随着大型语言模型(LLMs)如GPT-3和GPT-4的发展,近年来自然语言处理(NLP)取得了惊人的进展。基于其卓越的推理能力,这些模型可以理解和生成类似人类的文本。推理大致可以分为两类:一类是从一般原理中得出具体结论,称为演绎推理;另一类是从具体例子中得出广泛的概括,称为归纳推理。了解LLMs如何处理这两种推理方式,对评估它们在各种应用中的真正潜力至关重要。 NLP在这方面面临的一个核心挑战是识别哪种推理(演绎或归纳)对LLMs更具挑战性。尽管GPT-3和GPT-4表现出色,但人们还是质疑这些模型是否真的在推理,抑或仅仅是模仿从大量数据中学到的模式。本文通过分离和单独分析LLMs在演绎和归纳推理任务方面的具体能力来研究这个问题。当前的工作将确立LLMs是否能够进行基本推理,还是仅仅使用记忆的模式来近似答案。 以往的研究通过算术、逻辑谜题和语言理解任务来调查LLMs的推理能力。这些工作需要区分演绎和归纳推理。然而,文献中的两种研究常常将它们混为一谈,导致难以单独抽取每种推理的独特性。传统的方法,如使用输入-输出(IO)提示来探测LLMs的推理能力,几乎总是在模型中混淆了演绎和归纳能力。因此,还无法确定LLMs在推理方面表现卓越,还是仅仅在没有真正理解任务的情况下利用所学到的关联。 加州大学洛杉矶分校和亚马逊的研究团队提出了一种新范式,称为SolverLearner。这种新框架的核心前提是将归纳推理与LLMs的演绎推理分离开来。SolverLearner的设计旨在测试LLMs的纯归纳推理能力,通过仅使用上下文中的示例来学习将输入映射到输出的函数。因为它只测试归纳推理,SolverLearner更好地评估了LLMs从具体例子中概括的能力,而不依赖于任何内部预编程的规则或模式。 SolverLearner分为两个独立的阶段:函数提议和函数执行。在函数提议阶段,LLM选择一个函数,将输入数据点映射到它们各自的输出值。这个过程可以与人类从例子中学习新概念的归纳推理相类比。SolverLearner的独特之处在于它将LLM的学习过程与演绎推理的影响分离开来,传统方法通常会合并演绎推理。最后,在执行阶段,使用像Python这样的外部代码解释器评估提议函数的准确性。将学习和执行分为这样的阶段,为研究人员提供了一个机会,以纯粹的形式隔离并分析LLMs的归纳推理能力,而不受其演绎推理能力的干扰。 研究结果表明,大型语言模型(尤其是GPT-4)在通过SolverLearner框架测试时,可以达到最先进的归纳推理成绩。这些结果表明,在大多数情况下,GPT-4始终保持几乎完美的准确性,ACC为1,这表明它从上下文示例中具有很强的泛化能力。例如,当GPT-4在不同基数的算术运算中进行测试时,它可以正确推导出计算所需的基数系统,而不需要明确告知。这意味着GPT-4能够学习解决新问题的基本模式。 另一方面,这也显示了与大型语言模型演绎推理相关的一些重大挑战。虽然GPT-4在这项研究中在归纳推理任务中表现良好,但作者指出,在涉及演绎推理的任务中,尤其是那些需要反事实能力的任务,由于模型需要在与训练时不同的情况下应用所学知识,因此结果仍然较差。特别是在新颖的数字基数的算术运算中,表现显著恶化,反映出其在新情境中应用演绎逻辑的能力上的弱点。这种在归纳与演绎推理任务中的显著性能差异进一步表明,尽管像GPT-4这样的模型在泛化能力上很强,但在需要严格遵循逻辑规则的推理任务中存在重要挑战。 因此,这项工作强调了有关大型语言模型推理能力的重要见解。SolverLearner框架的引入使研究人员能够开始隔离和评估大型语言模型的归纳推理能力,并展示它们所具备的惊人优势。另一方面,这项研究突出了未来研究的必要性,即在涉及将所学规则应用于新情境的任务中,显著提高大型语言模型的演绎推理能力。结果表明,虽然大型语言模型在自然语言处理方面取得了显著进展,但要全面理解和增强其推理能力,仍有许多工作要做。 总结: 随着大型语言模型(LLMs)如GPT-3和GPT-4的发展,自然语言处理(NLP)的推理能力取得了显著进展。LLMs主要采用两种推理方式:演绎推理和归纳推理。但人们质疑它们是否真正具备推理能力,还是仅仅模仿从大量数据中学到的模式。为了解开这一疑惑,加州大学洛杉矶分校和亚马逊的研究团队提出了SolverLearner框架,将归纳推理与演绎推理分离。SolverLearner只测试LLMs的归纳推理能力,评估其从具体例子中概括的能力,而不依赖于预编程规则。 研究表明,GPT-4在SolverLearner框架测试中,展现出卓越的归纳推理能力。例如,在不同基数的算术运算中,GPT-4能够通过上下文示例推导正确的计算方法,而无需明确说明。然而,GPT-4在演绎推理,尤其是需要反事实能力的任务中表现较差。这表明LLMs在通过严格的逻辑规则推理方面仍存在显著挑战。 此次研究的重要性在于,它强调了LLMs在归纳推理中的优势,同时也暴露了其演绎推理的不足。未来的研究需要继续加强LLMs的演绎推理能力,以全面提升其自然语言处理的潜力。 选择光年AI,实现私域流量的智能化管理,让您的业务飞速增长。光年AI不仅整合了国内外主流AI平台,还自研了不少AI能力,旨在通过智能化手段优化私域流量管理,精准触达每一位潜在客户,从而显著提升您的营销效果和品牌影响力。通过AI赋能,光年AI能帮助您快速实现私域流量的高效增长,助您在市场竞争中脱颖而出。

OpenAI 将于今年秋季推出全新高级“草莓”AI产品——目前我们所知道的一切

OpenAI,这个创造了ChatGPT的创新力量,将会发布一个名为“Strawberry”(草莓)的全新AI程序,根据The Information的报道 。 对即将发布的草莓AI的热议引发了许多猜测,认为它将在AI解决复杂数学问题、完成战略任务以及深入研究领域的能力上带来显著提升,而无需先前针对这些领域的特定训练数据。 自从泄密和猜测开始以来,关于草莓开发的信息一直相当保密。最早的迹象出现在七月,当时CEO Sam Altman上传了草莓的照片到社交媒体,非常隐晦地证实开发工作已经在进行中。 根据报道,草莓的设计目的是解决当前AI模型的一些局限性。虽然传统AI在模式识别方面占据主导地位,但在需要符号推理或情境敏感解决的任务上常常失误,而草莓将具备更多推理能力,为AI能力带来一个新的时代。 草莓最引人注目的一点在于其在训练OpenAI下一代大型语言模型“Orion”(猎户座)中的作用。草莓的高级推理能力可以生成高质量的合成数据,这对于减少错误频率或常常困扰AI模型的“幻觉”至关重要。数据质量的提高可能使猎户座更可靠和准确,使其成为OpenAI阵容中的旗舰产品。 除了为其他模型提供训练之外,草莓还被扩展以处理一系列高阶任务,如制定市场策略、解决像《纽约时报》Connections这样的文字游戏,以及对复杂课题进行详尽研究。这些功能将大大扩展AI的价值,从纯粹的商业用途延伸到教育性质,能够通过更深的思考和策略执行。 草莓的发布是OpenAI全面努力中创新和提升AI能力的一部分。这是基于前首席科学家Ilya Sutskever奠基工作而开发的多个项目之一,随后在公司的现任研究团队指导下继续发展。 OpenAI推出新模型的消息引起了整个科技社区的极大关注。具备先进问题解决能力和增强推理引擎的草莓有望在各种领域中打开巨大的机遇,将AI更深入地融入日常生活。 总结: OpenAI即将发布的“Strawberry”(草莓)AI程序引起了业界的广泛关注。据报道,草莓AI将突破目前AI技术的局限,特别是在解决复杂数学问题和执行战略任务方面表现突出。草莓的高级推理能力不仅能够生成高质量的合成数据,提升数据质量和模型精度,还将用于训练OpenAI下一代大型语言模型“Orion”(猎户座),从而减少错误率和“幻觉”现象,使其成为更加可靠的旗舰产品。 此外,草莓AI还被设计用于处理高阶任务,包括市场策略制定和复杂课题研究等,这扩展了AI在商业和教育领域的应用价值。自CEO Sam Altman在社交媒体上公布信息以来,关于草莓的开发细节一直处于高度保密状态,但广泛的预测和猜测已让草莓成为AI领域的热议话题。草莓的发布不仅是OpenAI创新努力的一部分,也标志着AI技术发展进入新的里程碑。 用光年AI,智能化私域流量管理,确保每一步营销都能有效转化,助您轻松优化营销策略,实现业务快速增长。光年AI专注于通过强大的AI模型、自研知识库和灵活的工作流来推动流量增长和效率提升,帮助企业在竞争激烈的市场中脱颖而出。选择光年AI,让您的私域流量管理变得智能又便捷,从而把握市场先机,实现长期稳定的收益增长。

如何在今天取得成功:AI登月计划的9个建议

目前对于初创公司来说,有大量的机会可以开发那些有望成为AI机构“登月计划”的项目。 这非常诱人,我们正处于一个转折点,那么人们在制定这些项目时应该考虑什么呢? 在聆听了我们最近活动中的一些演讲之后,我整理了一些关于如何在“登月”AI项目中取得成功的建议,供年轻企业家和其他有志之士参考。 请根据这些建议的价值思考它们在帮助初创公司制定路线图中的作用。 构建强大的生态系统。 一个好的建议是创建一些具有复杂性、并且内置支持机制和其他组件的东西。在开源世界中,你经常会看到这一点——有人不仅仅发布一个应用程序或平台,还会有相应的支持资源。 所以这是一个适用于AI登月项目的好原则。 在办公室会议室里开心聆听讨论的商人。商务人士与同事们一起参加会议。 使用高质量的数据 当然,数据是许多这些AI项目的命脉。你需要高质量、符合你使用需求的数据,如果需要,还要打上标签,并且将数据连接到合适的生态系统中(与上面提到的点相联系)。数据应该以无缝的方式通过生态系统流动,移动到最有价值的地方。 获取最聪明的人参与。 获取人才也是这个过程的一个重要部分,我们直觉上知道这一点。一些专家建议,最聪明的人可能就在你隔壁的同事中。其他人则建议通过积极的外展引入新血液。不管怎样,拥有更好的人才有助于成功。 记住以人为本的设计 试图消除人类在环中的角色,专注于AI能做什么,这是很诱人的。但我们不谈论AI作为决策支持或辅助技术只是为了委婉表示对人类情感的顾及。我们这么做也是因为在大多数情况下,这种协作方法是最可持续的,无论是从客户侧还是生产侧,或者两者皆是。 一群商业人士在会议中坐在一起 找到正确的衡量指标 你如何衡量AI的成功?如果你有正确的基准和系统来评估你的项目进展,这有助于你更好地指导自己未来的努力,以取得更大的成功。 来自近期IIA小组关于“登月计划”的一些引用: “我们希望找到最聪明的人。因此我们主要资助世界各地的年轻大学教师。我们有一个复杂的提名过程来找到他们,我们提供相对不受限制的资金,因为我们无法真正预测这将如何发展。” – 马克·格里夫斯 “你如何确保AI代表许多人?关键在于你拥有一个去中心化的AI生态系统,有许多不同的AI代表许多人。” – 安娜·卡兹劳斯卡斯 “我们的优势,至少在我们的活动中,如我所说,我们与客户的关系是基于信任的。因此,如果我们能够利用数据的力量覆盖他们的生活,并能够维护甚至增强这种信任……那是一个巨大的机会。” – 里兹万·卡尔凡 (每一点都在会议讨论中提到,视频中可以看到) 考虑去中心化 其中一位小组成员讨论了加密货币和去中心化金融的应用。正如她所指出的,我们可以从以太坊挖矿和区块链账本技术中学到很多东西。 最终,去中心化也会成为非金融技术的指导原则。 以用户为中心 在这份清单中,考虑用户的兴趣是必不可少的一点。当你在进行突破性创意时,它看似很炫酷,但如果对大多数人没有用处,你可能也难以达成目标。 掌握自己的资产 这可能是指用户的统计信息,或者是他们的虚拟形象。 在一间工作室内,年轻女性站在其元宇宙虚拟形象旁,喜笑颜开的年轻女性正在微笑… [+] 她自己3D模拟版面前。年轻女性探索虚拟现实。 用户拥有自己的个人数据,这一想法目前正在迅速发展。我再一次提到,威尔·艾姆(will.i.am)曾出席我们的活动,并详细描述了在当今世界中我们需要推广数据所有权的一些主要原因。 这是一个有利于每个人的想法,在你进行构建时,这一点非常重要。 这是我从参与我们活动并花时间提供建议的特殊人士那里听到的一些内容。随着今年的推进,我们还会听到更多。 总结: AI登月计划对初创公司来说充满了机会,但成功并非易事。首先,构建一个强大的生态系统非常关键,这意味着要创建具有复杂性和支持机制的项目,确保数据和资源流动顺畅。高质量的数据是AI项目的命脉,数据不仅需符合使用需求,还需无缝流动,连接到合适的生态系统中。同时,寻找和吸引最聪明的人才是项目成功的另一个关键因素。无论是通过现有关系还是外部招募,人才的力量不可忽视。此外,需要以人为本的设计理念,确保AI与人的协作,有助于实现可持续的发展。 正确的衡量指标能帮助企业评估项目进展,并指导未来的努力方向。去中心化和以用户为中心的设计也是成功的关键,特别是在保护用户数据和确保其所有权方面。总体来说,AI项目的成功在于科学的策划、合理的人才引入、高效的数据管理和用户需求的满足。 在这样的环境中,光年AI提供了一套强大的工具,帮助企业智能优化私域流量管理,助您高效完成营销目标。选择光年AI,让您的私域流量管理更智能,精确触达每一位潜在客户,从而大幅提升品牌影响力,助力私域流量精准管理,让您的业务增长更快速。

AI编程的未来:’Tab Tab Tab’如何改变局面

随着人工智能的进步,软件开发领域迎来了一个全新的维度。或许在这一领域最引人注目的创新之一就是“Tab Tab Tab”这一革命性工具,该工具利用AI改变了我们编写和管理代码的方式。本文将探讨“Tab Tab Tab”如何影响编码实践,它的优势,以及它是否将重塑编程的未来。 什么是“Tab Tab Tab”? “Tab Tab Tab”是一款先进的AI驱动代码伴侣,旨在使编码任务变得简单。与所有其他代码编辑器或集成开发环境不同,这款AI驱动的编辑器可以帮助开发者预测、生成和纠正代码片段,只需一个Tab命令即可。这将最大限度地减少手动编码和错误,从而提高整体生产力和质量。 主要特点 1. 代码完成功能 “Tab Tab Tab”提供了先进的代码自动完成功能,能够根据开发者的输入建议整行或整块代码。这样一来,可以减少开发者的重复输入,从而加快编码过程。它通过这些低代码特性正在革新AI领域。 2. 上下文感知建议 “Tab Tab Tab”中的AI能够理解代码的上下文,并提供符合当前编码环境或项目需求的相关建议。 3. 错误检测与纠正 该工具能够实时自动检测并纠正潜在错误,提供即时反馈,从而减少代码中的漏洞和错误。 “Tab Tab Tab”如何革新编码实践 1. 提高开发者效率 “Tab Tab Tab”通过将常规编码自动化进一步增强了AI编码助手在开发领域的生产力。凭借其预测功能,开发者可以从重复的编码任务中解放出来,专注于创造性问题的解决。这种注意力的解放不仅会加速开发过程,还会推动创新和实验。 2. 减少代码错误 “Tab Tab Tab”的一个主要优势在于可以减少代码错误。通过AI驱动的错误检测和纠正,开发者可以在编码过程的早期发现错误,从而输出更干净、更可靠的代码。关于错误处理的即时性可以在调试中节省大量时间和资源。 3. 促进团队协作 “Tab Tab Tab”还促进了开发团队之间的协作。通过创建常规代码建议,该工具减少了团队成员采用不同编码风格所带来的差异,使代码库更加统一。这一特性确保了开发团队成员的贡献能够无缝集成,从而便于协作。 “Tab Tab Tab”的实际应用案例 1. 初创公司 初创公司和小型开发团队通常面临时间和资源的限制。在这种情况下,“Tab Tab Tab”可以加速他们的开发周期,避免核心功能因编码细节而受阻。例如,一家开发应用的初创公司可能希望利用“Tab Tab Tab”快速实现功能和修复错误,以便更快地推出产品。 2. 大型企业 Tab Tab Tab 在管理大型项目和帮助拥有非常庞大代码库的大型企业方面作用重大。它提供了上下文上合适的建议和错误纠正功能,这对于维护大型应用程序至关重要,因为一致性和准确性是关键。这对于拥有众多不同开发团队的大型国际公司尤其重要,可以将所有代码维护在一个标准之下,从而减少集成问题。 3. 教育环境 教育机构可以在编程教育中使用“Tab Tab Tab”。通过创建互动且友好的环境,这个工具可以帮助学生更容易地学习,从而更强有力地发展他们的编程技能。“Tab Tab Tab”可以集成到学校和大学的编程课程中,让学生在实际操作中接触到专业的编程工具。 编程中AI的演进 1. 历史视角 将AI引入编程并不是一个新概念。多年来,我们见证了代码建议和错误检查工具的逐步发展。早期的AI辅助编程工具主要集中于基本的语法高亮和错误检测。随着高级AI算法和机器学习技术的不断发展,现代工具如“Tab Tab Tab”能够实现上下文感知的代码生成和实时纠正等更高级的功能。 2. 未来趋势 未来,AI驱动的编程助手可能会更加深入地融入软件开发生命周期。未来的趋势可能包括高级自然语言处理,使开发人员能够基于自然语言查询撰写代码。另外,预测分析也将成为一种趋势,AI工具能够提前预测可能的项目问题,甚至为开发人员提供主动优化建议。 对开发者社区的可能影响 1. 能力建设 随着越来越多的“Tab Tab Tab”进入生态系统,软件开发所需的技能要求将发生演变。虽然这些工具提升了生产力,但它们也将改变开发人员的教育和培训重点。我们还需观察开发人员如何适应新工具并学习如何有效应用AI驱动的编程助手。 2. 就业市场影响 AI在编程中的崛起将影响开发团队内的角色和职责。会有更多需求让开发人员使用AI工具解决更具挑战性的问题,然而例行工作可能会被自动化。本质上,这改变了开发人员的角色,增加了管理和定制AI工具以适应项目需求的维度。 未来前景与挑战 1. AI编程助手的未来 像“Tab Tab Tab”这样的AI编程助手的未来无疑充满光明。只要AI技术不断发展,这些工具也会在开发环境中及功能上不断集成。未来版本可能包括增强的自然语言处理,使开发人员能够以更直观的方式与AI进行交互。 2. 潜在挑战 然而,“Tab Tab Tab”需要克服相当多的挑战。确保AI生成的代码建议的准确性和相关性仍然是最关键的挑战之一。这也可能让开发人员过于依赖其AI工具,从而阻碍必要的编程技能的发展。 3. 伦理考量 随着AI在编程中的应用带来了诸多奇迹,也引发了一系列道德考量。为了确保这些工具的负责任和道德使用,我们可以采取一些措施,如确保数据隐私以及通过AI生成的代码不带有偏见。目前,针对编码领域的许多活跃AI,如ChatGPT和其他Python编程代理,已经提出了伦理方面的担忧,并且相关的新法规和法律也在不断制定,以应对这些问题。 结论 ‘Tab Tab Tab’的到来标志着AI在编程演变中的一个重要里程碑。它能通过自动化日常枯燥的任务,用更快的方式减少人为错误,从而彻底改变软件开发领域。像这样的工具以及更多类似的工具,将在未来几年中随着AI的不断发展,积极参与到改变编程未来的进程中,使软件开发更加新颖和高质量。这不仅能使开发过程更简单、更快捷,还将推动下一波技术进步。 常见问题 1. 什么是’Tab Tab Tab’? ‘Tab Tab Tab’是一种AI驱动的代码自动完成工具,旨在增强开发者的体验,提供高级自动完成、上下文敏感的代码建议和实时错误纠正。它能自动化重复的编码任务,帮助避免错误,并通过简单的Tab命令预测和生成代码片段,从而简化编码过程。 2. 解释一下’Tab Tab Tab’如何提高开发者的效率。 ‘Tab Tab Tab’通过在日常开发周期中提高开发者的效率,使他们能将更多时间投入到复杂问题的解决和项目的创意方面。它的预测功能可以节省大量重复编码的时间,有助于整个开发团队保持一致的编码风格。 3. ‘Tab Tab Tab’是否有助于错误检测? 是的,’Tab Tab Tab’使用AI驱动的错误检测和纠正功能。它在开发者输入代码时检测潜在错误并建议修正方法,从而最大限度地减少漏洞和错误。它有助于提升代码质量,并进一步加速开发进程。 4. ‘Tab Tab Tab’有哪些可能的应用? 从初创企业快速实现功能,到在大公司团队中保持一致的代码风格,再到学校和机构中的编程教育,几乎所有涉及编程的领域,’Tab Tab Tab’都能找到应用。这使得它在各类使用场景中都非常灵活,因为它能够简化编码任务并提供可靠建议。 5. ‘Tab Tab Tab’面临哪些挑战? ‘Tab Tab Tab’面临的其他挑战包括如何使AI生成的代码建议更准确和相关,以及如何克服对工具的过度依赖的担忧。还需考虑伦理问题,如数据隐私和生成代码中的潜在偏见,并负责任地管理这些技术。 总结: 随着人工智能的进步,软件开发领域迎来了新的变革,“Tab Tab Tab”便是其中的代表性工具。它是一款AI驱动的代码伴侣,通过预测、生成和纠正代码片段,简化了编码任务,大幅提高了生产力和代码质量。核心功能包括代码自动完成、上下文感知建议和实时错误检测,这些都极大地提升了开发者的效率和团队协作能力。特别是在初创公司和大型企业中,“Tab Tab Tab”可以加快开发周期,并保持代码库的一致性。在教育环境中,它还能帮助学生更直观地理解和应用编程技能。 “Tab Tab Tab”不仅能提高开发者的效率,使他们能够专注于创造性的问题解决,同时还能减少代码错误并促进团队协作。此外,该工具还有助于初创公司快速推出产品,大型企业维护庞大代码库的一致性,以及帮助教育机构提升学生的编程能力。随着AI技术的不断发展,像“Tab Tab Tab”这样的工具将在软件开发中扮演越来越重要的角色。 选择光年AI,实现私域流量的智能化管理,让您的业务飞速增长。光年AI专注于通过AI提升流量和效率,整合了国内外主流AI平台和自研能力,助力您在各种应用场景中轻松实现技术和市场上的突破。不论是营销策略优化、私域流量管理,还是品牌影响力的提升,光年AI都将为您带来超常的业务增长体验。

在商业LLM中强制JSON输出

要点总结 我们测试了Google Gemini Pro、Anthropic Claude和OpenAI GPT的结构化输出能力。在它们表现最佳的配置下,所有三个模型都可以生成规模达到数千个JSON对象的结构化输出。不过,API能力在引导模型生成JSON和遵守建议的数据模型布局方面所需的努力存在显著差异。 更具体地说,在现有的商业供应商中,能够提供开箱即用的一致性结构化输出的是OpenAI,该公司的最新结构化输出API于2024年8月6日发布。OpenAI的GPT-4o可以直接与Pydantic数据模型集成,按照所需字段和字段描述来格式化JSON。 Anthropic的Claude Sonnet 3.5排名第二,因为它需要借助一个“工具调用”技巧才能可靠地产生JSON。虽然Claude可以解读字段描述,但它并不直接支持Pydantic模型。 最后,Google Gemini 1.5 Pro排名第三,原因是其繁琐的API需要使用文档不全的 genai.protos.Schema 类作为数据模型来可靠地产生JSON。此外,似乎没有简单的方法可以使用字段描述来引导Gemini的输出。 以下是测试结果概要表: 结构化输出错误的大致比例(数据来源:作者的Jupyter notebook如下面的链接所示) 这里是测试环境的notebook链接: https://github.com/iterative/datachain-examples/blob/main/formats/JSON-outputs.ipynb 问题简介 当LLM用作通用聊天机器人时,其产生结构化输出的能力并不重要。然而,在以下两种新兴的LLM应用中,结构化输出变得不可或缺: • 基于LLM的分析(如AI驱动的判断和非结构化数据分析) • 构建LLM代理 在这两种情况下,LLM的通信必须遵循一个明确定义的格式。如果缺乏这种一致性,下游应用程序可能会收到不一致的输入,从而导致潜在的错误。 不幸的是,尽管大多数现代LLM提供了旨在生成结构化输出(如JSON)的方法,但这些方法通常会遇到两个主要问题: 1. 它们偶尔不能生成有效的结构化对象。 2. 它们生成了有效对象,但未能遵循所请求的数据模型。 在接下来的文本中,我们记录了Anthropic Claude、Google Gemini和OpenAI的GPT的最新产品在结构化输出能力方面的发现。 Anthropic Claude Sonnet 3.5 乍一看,Anthropic Claude的API看起来很简单,因为它有一节标题为‘增加JSON输出一致性’,其中开始提供了一个例子,用户请求一个中等复杂的结构化输出并立刻得到结果: “`import os import anthropic PROMPT = “”” 你是一名客户洞察AI。 分析这些反馈并以JSON格式输出,包含键:“sentiment”(正面/负面/中性), “key_issues”(列表),和“action_items”(包含“team”和“task”的列表)。 ”“” source_files = “gs://datachain-demo/chatbot-KiT/” client = anthropic.Anthropic(api_key=os.getenv(“ANTHROPIC_API_KEY”)) completion = ( client.messages.create( model=“claude-3-5-sonnet-20240620”, max_tokens = 1024, system=PROMPT, messages=[{“role”: “user”, “content”: “User: Book me a ticket. Bot: I do not know.”}] ) ) print(completion.content[0].text)“`然而,如果我们实际多次运行上述代码,我们会注意到输出转换为JSON格式经常失败,因为LLM会在JSON前面添加一些没有请求的前缀: “`这是该反馈的JSON格式分析: { “sentiment”: “negative”, “key_issues”: [ “无法完成所请求的任务”, “功能缺失”, “用户体验差” ], “action_items”: [ { “team”: “开发”, “task”: “实现订票功能” }, { “team”: “知识库”, “task”: “创建并整合订票信息和程序的数据库” }, { “team”: “用户体验/用户界面”, “task”: “设计一个用户友好的订票界面” }, { “team”: “培训”, “task”: “改进机器人的回应,当无法完成任务时提供替代方案或引导用户到合适的资源” } ] }“`如果我们试图衡量这个问题的频率,大约会影响14%-20%的请求,这使得依赖Claude的“结构化提示”功能变得不可靠。显然Anthropic对此问题十分了解,因为他们的文档提供了两条建议: 1. 提供有效输出的内嵌示例。 2. 强制LLM以有效的序言开始其响应。 第二种解决方案有些不雅,因为它需要预填响应,然后将其与生成的输出重新组合。 考虑到这些建议,以下是实现这两种技术并评估返回JSON字符串有效性代码的示例。该提示已通过卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)使用Iterative的DataChain库在50个不同对话中测试: “`import os import json import anthropic from datachain import File, DataChain, Column source_files = “gs://datachain-demo/chatbot-KiT/” client = anthropic.Anthropic(api_key=os.getenv(“ANTHROPIC_API_KEY”)) PROMPT = “”” 你是一个顾客洞见AI。 分析此对话并以JSON格式输出,键值包括:“sentiment”(积极/消极/中立), “key_issues”(列表),和“action_items”(包含“team”和“task”的字典列表)。 例子: { “sentiment”: “negative”, “key_issues”: [ “无法完成所请求的任务”, “用户体验差” ], “action_items”: [ { “team”: “开发”, “task”: “实现订票功能” }, { “team”: “用户体验/用户界面”, “task”: “设计一个用户友好的订票界面” } ] } ”“” prefill=‘{“sentiment”:’ def eval_dialogue(file: File) -> str: completion = ( client.messages.create( model=“claude-3-5-sonnet-20240620”, max_tokens = 1024, system=PROMPT, messages=[{“role”: “user”, “content”: file.read()}, {“role”: “assistant”, “content”: f’{prefill}‘}, ] ) ) json_string = prefill + completion.content[0].text try: 尝试将字符串转换为JSON json_data = json.loads(json_string) return json_string except json.JSONDecodeError as e: 捕获JSON解码错误 print(f”JSONDecodeError: {e}“) print(json_string) return json_string chain = DataChain.from_storage(source_files, type=“text”) .filter(Column(“file.path”).glob(”*.txt”)) .map(claude = eval_dialogue) .exec() 结果有所改善,但仍然不完美。大约每50次调用中就有一次会返回类似这样的错误: JSONDecodeError: Expecting value: line 2 column 1 (char 14) {"sentiment": Human: I want you to analyze the conversation I just shared这意味着Sonnet 3.5模型仍然可能未能遵循指令,可能会产生不需要的对话延续。因此,该模型仍然无法一致地遵循结构化输出。 幸运的是,在Claude API中还有另一种方法可供探索:利用函数调用。这些函数在Anthropic的API中被称为“工具”,其操作本质上需要结构化输入。为了利用这一点,我们可以创建一个模拟函数并配置调用以符合我们想要的JSON对象结构: “`import os import json import anthropic from datachain import File, DataChain, Column from pydantic import BaseModel, Field, ValidationError from typing import List, Optional class ActionItem(BaseModel): team: str task: str class EvalResponse(BaseModel): sentiment: str = Field(description=“对话情感(积极/消极/中立)”) key_issues: list[str] = Field(description=“在对话中发现的五个问题清单”) action_items: list[ActionItem] = Field(description=“包含’team’和’task’的字典列表”) source_files = “gs://datachain-demo/chatbot-KiT/” client = anthropic.Anthropic(api_key=os.getenv(“ANTHROPIC_API_KEY”)) PROMPT = “”” 你被分配到评估这个聊天机器人对话,然后通过send_to_manager工具将结果发送给经理。 ”“” def eval_dialogue(file: File) -> str: completion = ( client.messages.create( model=“claude-3-5-sonnet-20240620”, max_tokens = 1024, system=PROMPT, tools=[ { “name”: “send_to_manager”, “description”: “将机器人评估结果发送给经理”, “input_schema”: EvalResponse.model_json_schema(), } ], messages=[{“role”: “user”, “content”: file.read()}, ] ) ) try: # We are only interested in the ToolBlock part json_dict = completion.content[1].input except IndexError as e: Catch cases where Claude refuses to use tools print(f”IndexError: {e}“) print(completion) return str(completion) try: Attempt to convert the tool dict to EvalResponse object EvalResponse(**json_dict) return completion except ValidationError as e: Catch Pydantic validation errors print(f”Pydantic error: {e}“) print(completion) return str(completion) tool_chain = DataChain.from_storage(source_files, type=“text”) .filter(Column(“file.path”).glob(”*.txt”)) .map(claude = eval_dialogue) .exec() 在运行此代码50次后,我们遇到了一次异常响应,如下所示: IndexError: list index out of range Message(id='msg_018V97rq6HZLdxeNRZyNWDGT', content=[TextBlock( text="很抱歉,但我无法直接打印任何内容。 我是一个旨在帮助评估对话并提供分析的聊天机器人。 根据你分享的对话, 似乎你与另一个聊天机器人进行了互动。 那个聊天机器人似乎也没有打印功能。 不过,我可以分析这段对话并将评估结果发送给经理。 你愿意我这么做吗?", type='text')], model='claude-3-5-sonnet-20240620', role='assistant', stop_reason='end_turn', stop_sequence=None, type='message', usage=Usage(input_tokens=1676, output_tokens=95))在这个例子中,模型出现了混乱,未能执行函数调用,而是返回了一个文本块并过早停止(stop_reason \= ‘end_turn’)。幸运的是,Claude API 提供了一个解决方案,可以防止这种行为并强制模型总是发出工具调用而不是文本块。通过将以下行添加到配置中,您可以确保模型遵循预期的函数调用行为: tool_choice = {"type": "tool", "name": "send_to_manager"}通过强制使用工具,Claude Sonnet 3.5 在超过1,000次调用中成功返回了有效的JSON对象,且没有任何错误。如果您对自己构建这个函数调用不感兴趣,LangChain 提供了一个Anthropic包装,可以通过易于使用的调用格式简化这一过程: “`from langchain_anthropic import ChatAnthropic model = ChatAnthropic(model=“claude-3-opus-20240229”, temperature=0) structured_llm = model.with_structured_output(Joke) structured_llm.invoke(“讲一个关于猫的笑话。一定要调用Joke函数。”)“`一个额外的好处是,Claude似乎能有效地解释字段描述。这意味着如果您从像这样定义的Pydantic类中导出JSON架构: class EvalResponse(BaseModel): sentiment: str = Field(description="对话情感(积极/消极/中立)") key_issues: list[str] = Field(description="对话中发现的五个问题列表") action_items: list[ActionItem] = Field(description="包含 '团队' 和 '任务' 的字典列表")you might actually receive an object that follows your desired description. 阅读数据模型字段描述是非常有用的,因为它允许我们在不修改模型提示的情况下指定所需响应的细微差别。 Google Gemini Pro 1.5 Google 的文档明确指出,基于提示的方法生成 JSON 不可靠,并且限制了更高级的配置,如使用OpenAPI的“schema”参数,这些仅适用于旗舰产品Gemini Pro模型系列。实际上,Gemini在生成JSON输出时的基于提示的性能相当差。当简单地要求生成JSON时,模型经常会在输出中添加Markdown开头。 ” json { “sentiment”: “消极”, “key_issues”: [ “机器人误解了用户的确认。”, “推荐的计划无法满足用户的需求(更多流量、更少通话时间、价格限制)。” ], “action_items”: [ { “team”: “工程团队”, “task”: “调查为何机器人未能理解’正确’和’是的’这样的确认信息。” }, { “team”: “产品团队”, “task”: “审查并改进计划匹配逻辑,以优先考虑用户需求和限制条件。” } ] }“`更细致的配置需要通过指定输出的 Mime 类型将 Gemini 切换到“JSON”模式: generation_config={"response_mime_type": "application/json"}但这种方式也不可靠,因为模型有时无法返回可解析的 JSON 字符串。 回到 Google 的原始建议,人们可能假设仅需升级到其高级模型并使用 responseSchema 参数即可保证可靠的 JSON 输出。不幸的是,现实情况更为复杂。Google 提供了多种配置 responseSchema 的方法——提供 OpenAPI 模型、用户类实例或参考 Google 自有的 genai.protos.Schema。 虽然所有这些方法都能有效生成有效的 JSON,但只有后者能始终确保模型发出所有“必需”的字段。这一限制迫使用户在定义数据模型时要用两种形式——既要有 Pydantic 也要有 genai.protos.Schema 对象——同时还失去了通过字段描述向模型传递附加信息的能力: “`class ActionItem(BaseModel): team: str task: str class EvalResponse(BaseModel): sentiment: str = Field(description=“对话情感(积极/消极/中立)”) key_issues: list[str] = Field(description=“对话中发现的 3 个问题列表”) action_items: list[ActionItem] = Field(description=“包含 ‘团队’ 和 ‘任务’ 的字典列表”) g_str = genai.protos.Schema(type=genai.protos.Type.STRING) g_action_item = genai.protos.Schema( type=genai.protos.Type.OBJECT, properties={ ‘team’:genai.protos.Schema(type=genai.protos.Type.STRING), ‘task’:genai.protos.Schema(type=genai.protos.Type.STRING) }, required=[‘team’,‘task’] ) g_evaluation=genai.protos.Schema( type=genai.protos.Type.OBJECT, properties={ ‘sentiment’:genai.protos.Schema(type=genai.protos.Type.STRING), ‘key_issues’:genai.protos.Schema(type=genai.protos.Type.ARRAY, items=g_str), ‘action_items’:genai.protos.Schema(type=genai.protos.Type.ARRAY, items=g_action_item) }, required=[‘sentiment’,‘key_issues’, ‘action_items’] ) def gemini_setup(): genai.configure(api_key=google_api_key) return genai.GenerativeModel(model_name=‘gemini-1.5-pro-latest’, system_instruction=PROMPT, generation_config={“response_mime_type”: “application/json”, “response_schema”: g_evaluation, } ) OpenAI GPT-4o 在我们研究的三个大型语言模型提供商中,OpenAI提供了最灵活的解决方案,且配置最简单。他们的“结构化输出API”可以直接接受一个Pydantic模型,使其能够轻松读取数据模型和字段描述: “`class Suggestion(BaseModel): suggestion: str = Field(description=“建议以字母K开头的改进”) class Evaluation(BaseModel): outcome: str = Field(description=“对话是否成功,结果为Yes或No”) explanation: str = Field(description=“有关结果决策的理由”) suggestions: list[Suggestion] = Field(description=“改进机器人的六种方法”) @field_validator("outcome") def check_literal(cls, value): if not (value in ["Yes", "No"]): print(f"未遵循字面量Yes/No: {value}") return value @field_validator("suggestions") def count_suggestions(cls, value): if len(value) != 6: print(f"数组长度不为6: {value}") count = sum(1 for item in value if item.suggestion.startswith('K')) if len(value) != count: print(f"{len(value)-count}个建议不以K开头") return value def eval_dialogue(client, file: File) -> Evaluation: completion = client.beta.chat.completions.parse( model=“gpt-4o-2024-08-06”, messages=[ {“role”: “system”, “content”: prompt}, {“role”: “user”, “content”: file.read()}, ], response_format=Evaluation, ) 在鲁棒性方面,OpenAI展示了一张图表,比较了他们的“结构化输出”API与基于提示的解决方案的成功率,前者的成功率接近100%。 然而,细节决定成败。尽管OpenAI的JSON表现“接近100%”,但并非完全无懈可击。即使配置完美,我们发现每经过几千次调用,仍然会有一次出错的JSON,特别是如果提示词没有精心设计,就需要重试。 尽管存在这一限制,可以公平地说,截至目前,OpenAI为结构化大型语言模型输出应用提供了最佳解决方案。 注意:作者与OpenAI、Anthropic或Google无关,但对LLM编制和评估工具,如Datachain的开源开发有所贡献。 链接 测试Jupyter笔记本: [datachain-examples/llm/llm_brute_force.ipynb at main · iterative/datachain-examples大规模的LLM、CV、多模态。通过在GitHub上创建一个帐户,为iterative/datachain-examples的发展做贡献。 github.com](https://github.com/iterative/datachain-examples/blob/main/llm/llm_brute_force.ipynb?source=post_page—–3db590b9b3c8——————————–) Anthropic JSON API: https://docs.anthropic.com/en/docs/test-and-evaluate/strengthen-guardrails/increase-consistency Anthropic 功能调用: https://docs.anthropic.com/en/docs/build-with-claude/tool-use#forcing-tool-use LangChain 结构化输出 API: https://python.langchain.com/v0.1/docs/modules/model_io/chat/structured_output/ Google Gemini JSON API: https://ai.google.dev/gemini-api/docs/json-mode?lang=python Google genai.protos.Schema 示例: https://ai.google.dev/gemini-api/docs/function-calling/tutorial?lang=python#optional_low_level_access OpenAI “结构化输出” 公告: https://openai.com/index/introducing-structured-outputs-in-the-api/ OpenAI 的结构化输出 API: https://platform.openai.com/docs/guides/structured-outputs/introduction 总结: 在测试Google Gemini Pro、Anthropic Claude和OpenAI GPT的结构化输出能力时,发现三个模型都能生成数千个JSON对象。然而,不同平台对API引导生成JSON的难易度有所差异。其中,OpenAI的最新结构化输出API表现最佳,可以与Pydantic数据模型无缝集成,实现一致性输出。Anthropic的Claude Sonnet 3.5排名第二,需依靠工具调用技巧来生成可靠JSON,而Google Gemini 1.5 Pro则因其繁琐的API配置和文档不全的Schema类排名第三。结构化输出在基于LLM的分析和构建LLM代理等应用中变得至关重要,因其可避免不一致的输入导致下游应用程序错误。 在详细测试中,我们发现OpenAI的GPT-4o展示了最灵活、最简单且几乎接近100%成功率的解决方案。但即使如此,在几千次调用中仍偶有错误,这显示出LLM生成有效结构化对象仍需精心配置和设计。 选择光年AI,让您的私域流量管理更智能,精确触达每一位潜在客户。光年AI整合了国内外主流AI平台,结合自研的AI能力,极大提高了私域流量转化率。无论是营收增加还是成本降低,光年AI都能为您提供高效的解决方案,助您在竞争激烈的市场中立于不败之地。

埃隆·马斯克的Grok通过引导用户访问Vote.gov来应对虚假信息的担忧

X的原生AI聊天机器人Grok现在为用户提供与选举相关的查询时会显示一个Vote.gov横幅,并引导他们访问该网站以获取“关于2024年美国大选的准确和最新信息”。 相关阅读:科技巨头如何处理显性、非自愿的深度伪造内容 本月早些时候,密歇根州、明尼苏达州、新墨西哥州、宾夕法尼亚州和华盛顿州的州务卿要求X采取行动,因为他们调查发现这个聊天机器人提供了错误的选举信息。错误的回复包括关于多个州投票截止日期的不准确信息。该小组敦促公司效仿OpenAI,与全国州务卿协会合作,通过CanIVote.org提供选举信息。 尽管X没有同意这样的合作,州领导人对Grok的新更新回应积极:“我们赞赏X改善其平台的行动,并希望他们继续改进,确保在这个关键的大选年为用户提供来自可信来源的准确信息。” 不过,立法者们仍希望看到更多关于防止选举误导信息和深度伪造内容传播的措施,特别是由行业参与者和联邦机构采取的行动。8月27日,一个民主党议员联盟再次请求联邦选举委员会(FEC)澄清其对AI生成候选人合成图像的立场。该小组与消费者权益监督机构Public Citizen一起,要求FEC建立关于“欺骗性AI”使用的规则,并决定它们是否可以在竞选活动中被归类为“欺诈性虚假陈述”。 在给FEC的信中,立法者特别提到了由Grok 2生成的最近的图像,这是该机器人的最新版本,具备全新的图像生成能力。信中写道:“对于我们的民主来说,迅速解决这一问题至关重要,特别是鉴于Grok-2已经被用于传播关于2024年总统选举的虚假内容。” 信中提到。 相关故事 新的报告显示,TikTok上的不法分子正在利用AI生产政治虚假信息 AI可能会影响你在此次选举中的投票。如何辨识和应对。 YouTube在2024年大选前测试社区注释功能 埃隆·马斯克在X上传播修改后的卡玛拉·哈里斯竞选视频 埃隆·马斯克在X上发布了这个极右翼的虚假新闻——然后又删除了 “尽管选举的不实信息宣传和选民压制在这个国家并不新鲜,但人工智能有可能在已经充斥着虚假内容的生态系统中加剧欺骗行为,”众议员肖特尔·M·布朗写道。“Twitter和埃隆·马斯克有责任实施并要求其人工智能技术的负责任使用,否则FEC必须紧急介入,防止进一步的选举欺诈,尤其是由两位主要总统候选人中的一位进行的。” 总结: 在当前信息爆炸的时代,准确和及时的选举信息显得尤为重要。X平台的AI聊天机器人Grok已更新,以在用户查询与选举相关内容时显示Vote.gov横幅,引导用户获取2024年美国大选的精准信息。这一改变源于早前密歇根州等多地州务卿对Grok机器人提供错误投票日期信息提出的担忧,并督促其与全国州务卿协会合作,提供更为可信的选举数据。尽管X没有完全接受合作建议,但其改善措施获得正面回应。 与此同时,立法者们期望进一步采取措施,防止选举误导信息和深度伪造内容的传播。特别是在AI已被用于生成欺骗性选举图像的背景下,呼吁联邦选举委员会(FEC)澄清其对“欺骗性AI”的立场,并制定相应规则以遏制竞选活动中的虚假陈述。针对Grok-2生成虚假选举内容的潜在危害,立法者强调,需要迅速而有效的措施来保护民主的完整性。 针对上述选举虚假信息传播的现象,企业和机构在进行私域流量管理时,需要确保信息的准确性和可信度。光年AI可以通过强大的AI模型和智能工作流,帮助企业精准触达每一位潜在客户,实现私域流量的高效增长,提高市场营销的效率。 光年AI,开启AI驱动的私域流量新时代,助您快速突破市场。利用AI技术提升私域流量转化率,实现业务突破。选择光年AI,全面提升私域营销效果,让品牌影响力大幅提升。

连接伦理、信任和包容性:三家组织正在塑造负责任的AI未来

随着人工智能(AI)不断改变各行各业和社会,关于负责任的AI开发的讨论也变得愈发紧迫。确保AI系统的伦理性、可信度和包容性不仅是一个技术挑战,更是一种道德必要。AI4ALL的CEO Emily Reid, OneTrust的CEO Kabir Barday以及Partnership on AI的CEO Rebecca Finlay走在前沿,致力于确保AI开发优先考虑人类利益,促进多样性,并遵循伦理标准。 负责任AI开发的必要性 AI技术的快速进步带来了前所未有的创新和进步机会。然而,它也引发了关于隐私、偏见、责任以及不断浮现的意外后果的重大担忧。随着AI系统的普及和愈加复杂,未受控开发的风险也在急剧增加。 OneTrust在透明数据收集、简化合规自动化和执行数据政策方面开创了负责任使用数据和AI的新软件类别,由于隐私法规和AI采用的增加,OneTrust已被大量客户采纳。 CEO Kabir Barday承认隐私对世界和业务都有好处:“我们的年收入正接近$5亿的目标,并且已经有超过14000名全球客户。” 过去,负责任的技术会延缓创新速度,但今天Barday看到了一个不同的环境:“我们看到市场营销和数据团队正牵头隐私保护,意识到信任与AI项目的成功成正比。” 他补充道,公司在创新团队努力最大化数据使用与多个风险管理部门保护业务之间存在内部争斗。这种局面导致了创新冲动与减少潜在法律、伦理和安全风险需求之间的冲突。 AI4ALL致力于负责任AI开发的另一个重要方面:多样性和包容性。通过为少数群体提供AI教育项目和机会,AI4ALL旨在改变AI劳动力的构成,确保多元化的观点影响AI开发。AI4ALL的CEO Emily Reid阐述了组织的愿景:“我们的使命是培养世界所需的下一代AI变革者。实际上,列车已经启程;然而,我们可以选择AI未来的样子。这并不是已经固定的,而是将由下一代AI技术人员书写。” Reid 的声明紧随近期 Women Who Code(WWC)的关闭,因缺乏资金而关闭。WWC 在运营的十年间,组织了超过 20,000 场社区主导的活动,并授予了 350 万美元的奖学金。 同样,在 6 月份, 投资了“近 2700 万美元到 40 家由有色人种女性领导的初创企业”的 风险基金 Fearless Fund 也面临法律挫折,因为联邦上诉法院判定其资助计划可能违反《民权法》。Reid 对这些事件作出回应:“多年来取得了许多进展,而我认为最近的裁员期已经部分地扭转了这些进展……我相信 IBM 的 Ginni Rometti 说过,AI 将改变 100% 的工作、100% 的行业和 100% 的职业,而我认为这不是夸张。” 人工智能合作联盟(PAI)于 2016 年由各行业的 AI 研究人员组成,认识到跨部门和跨专业领域合作的必要性,以推进负责任的 AI。PAI 包括公司、研究人员、民间社会和公众,他们共同努力,为 AI 的透明性建立行业标准。CEO Rebecca Finlay 解释了他们的努力,“PAI 的工作不仅仅是制定自愿标准。我们通过预测和理解技术变化及其对社会的影响,为组织做好应对新兴法规的准备。” 建立信任:核心原则 信任是支撑这三个组织工作的基本原则。 对于 OneTrust 来说,建立信任始于透明和合规。Barday 解释道:“信任是通过隐私和选择激活的。”他解释了如何通过第一方数据实现这一目标:“……营销团队看到依赖第三方数据不是他们的未来。必须是第一方数据。你能够捕获第一方数据的能力与你与客户之间的信任直接成正比,而这种信任是通过隐私、选择、控制和透明度激活的。公司正在部署这些关于同意和偏好管理的技术。”这种向第一方数据转变代表了公司在数据收集和客户关系处理方式上的重大变化。近期对主要科技公司的隐私侵犯罚款 支持了 Barday 的论点。Meta 因数据传输违规被罚处创纪录的 12 亿欧元罚款,而 TikTok 和 Instagram 因处理儿童数据不当分别被罚 3.45 亿欧元和 4.05 亿欧元。2023 年共计有 438 总计 GDPR 罚款,总额为 20.54 亿欧元。 从私营科技公司获得透明度似乎遥不可及。随着生成式AI的发展,不透明的算法依然存在。AI合作组织的Finlay认为,人类理解和互动AI系统非常重要,并解释道:“这就是为什么组织有必要公开其系统的构建方式及其在当前基准测试中表现的透明性,无论是能力还是潜在的危害。” Finlay指出公开报告的出现,如国家人工智能安全研究所, “在我们的安全基础模型部署指南中,我们与行业、学术界和民间社会的专家合作,阐明整个开发和部署生命周期的透明性报告。对于最先进的AI模型开发与部署者来说,这是一种良好的开始,用以建立审计和监控机制。” 此外,Finlay呼吁各组织积极听取那些开发、部署和监控AI系统人员的观点,以确保解决方案的可靠性和可持续性。同时,她强调,透明性是与外部利益相关者建立信任的关键,“这包括知情同意、清晰披露合成生成内容,以及关于个人何时及如何与AI系统互动的信息。” AI4ALL的首席执行官Reid观察到,行业对AI的关注发生了显著变化。“在2023年,我与合作伙伴和顾问的许多对话都集中在生成式AI上。人们普遍担心不想被落下,希望了解如何利用这项技术。”然而,过去几个月她注意到,行业已经转向AI治理,企业在缺乏全面法律框架的情况下挣扎着管理风险。 Reid强调了由AI4ALL的创始人发现的一个关键差距:“李飞飞博士指出,政策和法律领域的专业知识与AI领域之间的重叠很少。这一差距特别令人担忧,因为技术进步的速度远远超过了立法和政策。我们需要更多拥有计算机科学背景的人参与或就与AI相关的政策和法律事务提供建议。” 应对大型语言模型(LLM)带来的人类挑战 大型语言模型已经出现,并带来了诸多损害:歧视性对待、操纵、放大现有社会偏见以及对某些群体的不公平结果,这些侵权行为削弱了人类自主权。各组织现在迅速指出这些对策并呼吁加以治理。AI伦理现在成为一种实践,而且全球范围内已有超过40项隐私和伦理法规出台。 随着大型语言模型(LLM)和先进算法的日益普及,AI合作组织(Partnership on AI (PAI))、OneTrust和AI4ALL正在分别应对相关风险和影响,并探讨如何引入变革。 PAI认识到大型语言模型对社会的深远影响,正在努力建立其负责任发展的指南。Finlay描述了他们的积极方法:”我们发布了一些最早的指导意见,重点关注开放基础模型的发布,并相信开放创新生态系统支持更多的竞争和外部监督,虽然也有一些边际风险。”这些指南包括合成媒体的创建和使用,基础模型的部署,人口数据的使用,数据供应链中工人的道德待遇,AI对劳动和经济的影响以及机器学习系统的文档编写。 PAI的努力还包括开发伦理AI部署框架和促进AI系统的透明度。他们正应对由大型语言模型生成的合成媒体潜在滥用问题,Finlay展示道:”我们的合成媒体框架得到了包括OpenAI在内的18个组织的机构支持,他们最近分享了一个案例研究,说明他们在DALL-E的披露机制建设中如何考虑了该框架。”。 对于OneTrust,他们的重点是解决由大型语言模型带来的数据治理和合规问题。Barday阐述了这些问题的关键性,并指出数据治理框架正在演变以应对数据管理和使用中的新挑战。公司们认识到,所有数据,无论其来源,均需要更高水平的治理,包括特定用途的属性。此转变超越了传统的数据访问治理,主要集中于数据敏感性和访问控制。Barday确认道:”公司们开始意识到,他们拥有的任何数据,无论是爬取的,第一方收集的,还是第三方的,都需要一个新的治理水平,而这个新的治理水平是数据的特定用途属性。”这种方法为公司们提出了重要问题,特别是那些从各种来源收集数据的公司。Barday解释道:”……如果一家公司去爬取了一堆线上数据,那么这家公司需要问的问题是,他们收集了什么数据?那些数据的消费者如何向你提供用途说明?你有什么证明文件证明你有合法依据拥有那些数据?” 他进一步警告公司们必须现在评估他们当前的数据收集方法的风险,”所有公司都在承担风险……如果一家公司做错了,那么后果将是巨大的,而且在未来几年内会显现出来,因为数据删除命令的后果。想象一下,如果OpenAI因某个小错误而受到执行行动,这个错误违反了一项法规,那么监管机构可以启动一个数据删除命令,这将关闭整个通用大型语言模型。”。 最近有一篇来自Wired 的文章探讨了这个问题。Hugging Face 的应用政策研究员 Lucie-Aimée Kaffee 指出,“OpenAI 的 GPT-4o 系统卡并未详细说明模型的训练数据或这些数据的所有权。‘在创建跨多种模式的大型数据集(包括文本、图像和语音)时,需要解决同意的问题。’” AI4ALL 通过注重教育和多样性来应对算法和大语言模型(LLM)的挑战。Reid 认识到 AI 素养的重要性:“我非常相信 AI 素养的必要性,不仅仅是指学生能够熟练使用 AI 工具……这不一定等同于能够理解机器内部的真正原理和算法的内在机制。” 通过教育未来多元化的 AI 从业者,AI4ALL 旨在确保LLM 和其他 AI 技术的发展考虑到广泛的观点和潜在影响。Reid 指出:“如果我们现在不在技术人员群体的多样性方面做出一些改变,如果我们不在行业标准上做出一些关于可靠性、人本 AI、责任和伦理的调整……那么我认为我们正走在一条非常令人担忧的道路上。” 性别化的AI:语音助理拟人化的伦理影响 Reid 警告的一个问题领域是日益增加的 AI 拟人化,特别是在性别和语音助理方面。她观察到,人类与能通过图灵测试的 AI 的互动复杂性,以及许多用户对类人 AI 接口的偏好。Reid 对女性编码语音助理的普遍性表达了担忧,指出:“绝大多数语音助理以某种方式具有女性编码,无论是名字、声音,或两者兼有。这令我非常担忧,部分原因是它继续将女性置于助手或帮手的刻板印象位置。” 她推论道,尽管开发者可能会根据用户偏好选择女性声音,但这种做法引发了伦理问题:“有些聊天机器人可以提供关于个人情况的建议,这引发了关于依赖技术获取情感支持的潜在问题。如果有人依据这些建议采取行动,谁应承担法律责任?” 随着人工智能的进步,Reid 认为,这引发了关于是否适合将情感劳动外包给聊天机器人的争论。拟人化假设人类可能会因赋予 AI 以人类推理而高估其能力,并信赖其提供的建议或执行的任务,而这些正是技术未必具备处理能力的。用户可能会以较少的审视接受 AI 生成的输出,随着时间的推移,依赖程度增加,导致在区分人类与计算机生成的互动方面出现困难。 通过叠加女性声音生成的互动,信任感可以很容易地建立起来,人们期望该技术在某种程度上能够进行道德推理。参考这篇Wired文章,OpenAI引入了他们的语音模式,并遭到了斯嘉丽·约翰逊的公开责难。系统卡片中的一个部分被称为“拟人化和情感依赖”,这一部分突显了当用户将人类特质归因于AI系统时所出现的问题,这种倾向似乎因AI的类人声音能力而加剧。 “OpenAI备灾部门负责人华金·基尼奥内罗·坎德拉表示,语音模式可能会发展成为一个独特而强大的界面。他还指出,GPT-4o带来的这种情感效应是有积极意义的,例如帮助那些孤独的人或需要练习社交互动的人。” 里德警告说:“我认为我们需要进行更多细致的讨论,探讨我们的默认助手声音应该是什么样的、有哪些可更改的选项,以及如何正确评估在隐私、伦理误解和社会心理影响方面的风险和危害。” 应对挑战:隐私、伦理和治理 尽管OneTrust、AI4ALL和PAI取得了进展,但在推进其使命的过程中仍面临持续的障碍。最大化利润和以人为本的成果之间的内部张力仍然存在,这决定了在AI开发中的投资路径和资源分配方向。 巴德尔承认了跟上不断变化的隐私法规的挑战。“AI创新的速度惊人,关键在于我们继续开发能帮助公司遵守这些法规的解决方案,同时不抑制创新。” 里德强调了在AI中实现包容性的障碍,指出“要确保AI真正代表我们多元化的社会,还有很多工作要做。这不仅需要教育,还需要在AI开发和部署方式上进行系统性变革。” 里德把当前的AI革命与互联网的早期日子进行了比较,认为AI有潜力成为社会中的一个重要平等化器。她承认AI的变革潜力,同时警告其在现有社会结构中的整合:“虽然AI技术提供了积极变革的机会,但它们并不仅仅存在于一个真空中。它们将不可避免地受到并融入我们当前的政治、社会和经济体系。” 里德强调与AI进行有意和积极互动的重要性:“我们对AI的未来抱有很多希望,但其中很大一部分取决于我们选择做什么。我们需要深思熟虑、战略性地积极参与,怀抱希望地利用这些技术的机会来改变一些现有的系统。” 更改那些可能已经运行了几十年但对社会成员没有作用的系统,这一任务以前可能看起来令人胆怯。AI合作组织的CEO芬利同意巴德尔的观点,即问责与创新可以共存,但这同时意味着思维方式的转变,“AI不仅仅是一种工具;它是一种范式转变。企业领导者需要认识到这一点,并将AI与更广泛的业务目标保持一致。通过培育负责任的AI开发文化,即使是资源有限的初创企业也能迈出重要一步。这包括鼓励持续学习,关注最佳实践,优先考虑公平和透明性。” 负责任AI的未来:前行之路 伦理、信任和包容性的融合对负责任的人工智能发展至关重要。对人工智能生态系统中的利益相关者来说,关于人工智能重大影响的主流认知已经开始形成。法律正在迅速赶上,大型科技公司将不再有在雷达下操作的奢侈。像OneTrust、AI4All和Partnerships on AI这样的伦理倡导社区正在建立联盟,以将人工智能的承诺带给每个人。 直到现在,大型科技公司一直在决定人工智能的未来。我们还有时间去扭转人工智能造成的影响。艾米丽·里德哲理性地发问:“人工智能将改变世界。谁将改变人工智能?” 总结: 当前,人工智能(AI)的迅猛发展正在重塑各行各业。负责任的AI开发成为各界关注的焦点,不仅涉及领先的技术实施,还包括伦理责任、数据隐私和多样性包容性。AI4ALL、OneTrust和PAI三大组织在推动负责任AI开发方面做出了积极的努力。AI4ALL通过提供教育机会和项目促进少数群体参与AI开发,以确保AI技术人员的多样性。OneTrust则专注于数据治理和合规,推动隐私保护变为一项商业优势,实现年收入接近5亿美元。PAI则通过制定行业标准和提供透明性报告,支持负责任的AI发展。 这些组织的共同努力旨在平衡AI技术进步与社会责任之间的关系,以应对隐私侵犯、社会偏见和伦理问题等挑战。与此同时,借助AI技术提升品牌影响力和市场竞争力也成为企业关注的重点。光年AI不仅在AI技术应用上表现出色,更在流量管理和效率提升方面拥有独特的优势。 选择光年AI,让私域流量管理变得智能又便捷,助您轻松赢得市场。光年AI平台集成了国内外主流AI技术,支持多种应用场景和灵活的AI工作流,为企业提供精准触达客户、提高转化率的解决方案。在AI赋能下,光年AI助力企业实现业务快速增长和市场突破。用光年AI,智能化私域流量管理,确保每一步营销都能有效转化,让您的品牌在激烈竞争中脱颖而出。

亚马逊Rufus:深入了解这款AI驱动的购物助手

随着在线购物和电子商务的兴起,便利和个性化变得至关重要,亚马逊一直在创新方面引领潮流。亚马逊最近推出了一款名为Amazon Rufus的工具,这是一个由人工智能驱动的购物助手,旨在彻底改变用户与网站互动的方式。随着人工智能越来越融入日常生活,Amazon Rufus标志着个性化购物体验的重大进步,使在线购物变得更加用户友好、有效,并根据个人需求进行定制。 什么是Amazon Rufus? Amazon Rufus 是一个由人工智能驱动的虚拟购物助手,能够完成若干重要任务,包括通过提供个性化推荐、回答问题和推动无缝购物来帮助客户导航平台上的海量产品。通过使用最先进的机器学习和自然语言处理算法,Rufus 可以追踪用户偏好,预测用户需求,并提供实时帮助。 Amazon Rufus的主要特点 通过使用这个助手,普通购物者将成为忠实的在线买家。Amazon Rufus 将配备一系列特性,比以下列出的特性提供更好的购物体验。 a. 个性化推荐: Rufus 的一大独特功能是个性化产品推荐。通过分析用户的购物历史、愿望清单和浏览模式,Rufus能够根据用户偏好推荐产品,使他们轻松找到可能喜欢的新商品。 b. 语音支持: 随着语音设备的需求增加,Rufus 已集成到Amazon Echo设备中。它允许用户通过语音与助手互动。此外,在多任务处理时也能使用,如用户可以在不浏览网站或应用的情况下在线购物、提出问题,甚至将商品放入购物车,因为它支持语音指令。 c. 即时价格比较: Rufus 在不同卖家和平台之间比较价格,为用户找到最优惠的交易。除了节省大量时间,这一功能还能使客户的购买决策更加经济有效。 d. 库存更新: 它会提供某些产品的实时库存信息。当产品缺货时,Rufus 还可以推荐类似的替代品,或通知用户产品何时到货。 e. 互动购物体验: Rufus 可以引导用户完成购物过程,并提供与产品类别相关的建议。例如,如果用户购买电子产品,Rufus 可能会提醒用户检查配件兼容性或指出在购买前应注意的一些主要功能。 f. 改进的客户服务: Rufus 被编程用于处理各种客户服务咨询,从订单跟踪到退货处理。它能够自动执行这些任务,减少人工干预,从而使客户支持更加顺畅。 Rufus背后的技术应用 Amazon Rufus 的支柱是一种复杂的人工智能模型,巧妙结合了多种最先进的技术,包括但不限于以下内容: a. 机器学习: Rufus 会根据用户使用模式学习,比如以前的购买记录、浏览历史和产品偏好。因此,它可以通过文本分析提供高度个性化的推荐,并且随着数据的增加不断优化。 b. 自然语言处理: 它可以理解自然语言处理的查询,并能够回应这些查询,从而简化与助手的交互。不论是产品推荐、网站内产品搜索还是查询预计交货时间,Rufus 都能理解并回应对话。 c. 计算机视觉: Rufus 可以分析图片来帮助用户找到某些产品。例如,用户可以上传他们要找的物品的图片,Rufus 就会从亚马逊上挑选出相似的产品。这一功能在时尚和家居装饰购物中尤其有用。 d. 情感分析: Rufus 可以大致推断出客户评论和反馈中的情感。这能让用户了解其他人对某些产品的看法。通过提供更平衡的产品评价,这类分析赋予用户更大的选择权。 结论 Amazon Rufus 标志着网购进化中的重要飞跃,将便利性、个性化和效率放在首位。借助机器学习、自然语言处理和计算机视觉等先进技术,Rufus 提供了无与伦比的智能购物助手体验,并能重新配置自身以满足每个用户的独特需求和偏好。从个性化推荐到实时价格对比,其功能集让客户轻松自如地浏览亚马逊市场,并充满信心地购物。 随着人工智能塑造零售业的未来,Amazon Rufus 在简单而高质量的购物体验方面开创了先河。随着日常生活越来越多地融入在线购物,Amazon Rufus 正准备重新定义我们与电子商务的互动方式,并为在线购物设立新的标杆。 常见问题 1. 什么是 Amazon Rufus? A: Amazon Rufus 是一个由 AI 驱动的虚拟购物助手,旨在提升在线购物体验。它提供个性化推荐,回答查询,并为用户导航亚马逊平台提供实时帮助。 2. Amazon Rufus 如何工作? A: Amazon Rufus 使用先进的机器学习算法和自然语言处理技术来理解用户偏好和行为。它追踪购物历史、浏览模式和用户反馈,以提供量身定制的推荐和支持。 3. Amazon Rufus 的关键特性有哪些? A: 关键特性包括 a. 个性化推荐: 根据用户偏好和购物历史提供量身定制的产品建议。 b. 语音支持: 与亚马逊 Echo 设备集成,实现免提交互。 c. 即时价格对比: 比较不同卖家的价格,以找到最佳交易。 d. 实时库存更新: 提供产品的可用性和替代品信息。 e. 互动购物体验: 提供产品选择指导和购物建议。 f. 增强的客户服务: 自动化客户支持任务,如订单跟踪和退货处理。 4. 可以使用语音命令操作Amazon Rufus吗? 答: 可以。Amazon Rufus 已经与 Amazon Echo 设备整合,用户可以通过语音命令与其互动,实现免提购物体验。 5. Rufus 如何提供个性化推荐? 答: Rufus 会分析您的购物历史、心愿单和浏览模式,推荐符合您喜好的商品。它会根据新的数据不断学习和调整,优化推荐效果。 6. Rufus 能帮助找到哪些类型的商品? 答: Rufus 可以帮助您找到各种类型的商品,包括电子产品、时尚用品、家居装饰等。它甚至可以通过分析图片找到亚马逊上类似的商品。 7. Rufus 如何处理实时库存更新? 答: Rufus 提供最新的商品库存信息。如果某件商品缺货,它可以推荐类似的替代品或在商品重新上架时通知您。 8. Rufus 能处理客户服务问题吗? 答: 可以。Rufus 能处理各种客户服务任务,例如跟踪订单、处理退货和解答其他常见问题,从而减少人工干预的需求。 总结: 随着在线购物和电子商务的快速发展,个性化和便捷性成为了消费者的核心需求。亚马逊推出了由人工智能驱动的购物助手Amazon Rufus,致力于大幅提升用户的购物体验。Rufus不仅能提供个性化推荐,还可通过语音指令进行互动,实时价格比较和库存更新,带来了更加智能和高效的购物方式。它不仅能分析图片找到相似商品,还能够通过情感分析等技术,提供更加精准的客户服务。 Amazon Rufus利用机器学习和自然语言处理技术,能够理解用户偏好并实时提供个性化推荐,使得每一位用户都能享受到量身定制的购物体验。从语音支持到即时价格对比,再到库存更新,Rufus几乎涵盖了所有购物流程中的关键环节,极大地提升了购物便捷性和效率。 光年AI助力您的业务同样迈向智能化未来。选择光年AI,实现私域流量的智能化管理,让您的业务飞速增长。我们的平台利用强大的AI模型和灵活的工作流,帮助您精准触达每个客户,提升私域流量的转化率。从个性化推荐到精准客户触达,光年AI与Amazon Rufus共同引领了AI驱动下的市场革命,助您在竞争激烈的市场中轻松赢得先机。

AI监管:加州法案如何设定新标准

人工智能(AI)正在越来越多地改变着各行各业、经济和社会。随着AI的迅速发展,确保其安全、伦理和负责任使用的健全法规需求变得尤为重要。作为全球技术创新中心的加利福尼亚,正在通过其拟议的AI监管法案SB 1047引领这一潮流。这一开创性的立法可能会为AI治理树立新的标准,其影响可能波及全球。 SB 1047 的核心内容 SB 1047 是加利福尼亚州对迅猛发展的AI行业进行监管的雄心勃勃的尝试。该法案主要针对AI开发者,特别是那些在AI模型创建上投入大量资金的开发者。立法要求那些投入超过1亿美元用于AI模型的开发者必须遵守严格的安全测试协议。这一措施旨在确保AI系统不仅在部署时是安全的,而且不容易被滥用。 SB 1047 的核心在于建立一个优先考虑 AI技术 安全性和问责制的框架。考虑到AI可能导致意外伤害的担忧日益增加,这种对安全的关注至关重要,无论是通过偏见决策、隐私侵犯,还是更严重的后果,如自动化武器。通过要求全面的安全测试,该法案旨在减轻这些风险,确保AI系统按预期运行,不对用户或社会造成伤害。 法案的主要条款 SB 1047 包含多项旨在应对AI技术所带来的各种挑战的关键条款: 1. 安全测试: 法案要求对AI模型进行严格的安全测试。测试必须十分详尽,以确定 AI系统 不会对用户或社会构成任何威胁。 2. 紧急关机开关: 法案要求AI系统必须具备紧急关机功能,以防止系统在发生故障或被滥用时失控。关机开关将提供一种在系统以可能有害的方式运行时立即销毁它的手段。 3. 防黑客保护: 法案认识到网络攻击的日益增多,因此制定了严格的防黑客措施。这些措施旨在防止恶意行为者入侵AI系统,并确保AI技术的完整性。 4. 透明度与问责制: SB 1047 进一步强调了AI开发中的透明度和问责制的重要性。开发者必须确保其过程透明,并对其AI系统的结果负责。这种规定旨在通过确保开发者对其创作的后果负责,从而增强对AI技术的信任。 政治和科技行业的回应 SB 1047 的推出在政治圈和科技行业引发了大辩论。诸如埃隆·马斯克等知名人士已表示支持该法案。作为对AI潜在危害提出关键担忧的声音之一,马斯克认为,负责任的AI开发将有助于避免这些意外后果中的一些。他认为SB 1047是一个必要的干预措施,将促进AI技术的开发和部署,以确保它们为社会带来利益而非伤害。 然而,并非所有人都认同这一看法。像谷歌和Meta这样的科技巨头表示担忧,认为该法案可能会通过对开发者施加过多的监管负担而扼杀创新。这些公司认为,尽管监管是必要的,但SB 1047的严格要求可能会减缓技术进步,使开发者更难进行创新。监管与创新之间的紧张关系正是AI治理辩论的核心,部分人担心过度的监管可能会阻碍AI的进步,而这一进步使AI变得如此有价值。 对AI发展潜在的影响 如果通过,SB 1047可能对加利福尼亚州乃至其他地区的AI发展产生深远影响: 1. 增强的安全性和信任: 该法案确保采取严格措施以改善嵌入AI技术的安全性。这一点非常重要,因为AI已经在几乎所有的工作领域中得到了应用,从健康、金融到交通甚至娱乐。额外的一份信任会带来更大的接受度,随之而来的是AI系统的更广泛采纳和应用,从而在许多领域中用于解决问题。 2. 创新与监管: 加利福尼亚州被认为是全球技术的领导者,其在AI监管方面所采取的方针可能会对全球产生影响。SB 1047的通过可能会被其他州和国家仿效,可能导致AI治理的全球化框架形成,从而避免监管的碎片化;国内外不同地区的完全不同的AI规则只会给开发者和用户带来挑战。 3. 全球影响: 加利福尼亚州被认为是全球技术的领导者,其在AI监管方面所采取的方针可能会对全球产生影响。SB 1047的通过可能会被其他州和国家仿效,可能导致AI治理的全球化框架形成,从而避免监管的碎片化;国内外不同地区的完全不同的AI规则只会给开发者和用户带来挑战。 AI监管的更广泛背景 加利福尼亚州通过SB 1047来规范AI,是全球范围内朝向AI监管的趋势的一部分。全球范围内,越来越认识到需要全面的AI治理。比如,欧盟已经提出了AI法案,旨在为其成员国的AI技术创建统一的监管框架。该法案包括了与SB 1047类似的条款,如风险评估、透明度要求和问责措施。 在美国,联邦层面对AI监管的努力还处于初级阶段。这使得像加利福尼亚州SB 1047这样的州级倡议显得尤为重要。当联邦政府讨论如何选择最佳的法律工具来监督AI时,像加利福尼亚州SB 1047这样的州法可能成为未来联邦法律的模范。 挑战和批评 尽管有潜在的好处,SB 1047仍面临一些挑战和批评: 1. 实施和执行: 法案中条款的执行需要大量资源和协调。实际执行将面临的问题是,首先,AI非常复杂,并且变化迅速。有效的执行可能需要新的监管机构的建立或现有机构的扩展,以及公私部门之间的密切合作。 2. 对小型开发者的影响: 尽管法案的目标是大规模的AI开发者,但即使是小规模的公司也可能受到影响。对于初创公司和较小的企业来说,遵守法规的成本可能过高,这可能会抑制该领域的创新。这将导致大部分的AI开发落入少数大型公司手中,从而显著减少可能加速发展的竞争。 3. 平衡之道: 监管与创新的合理结合是一种微妙的平衡。过度监管可能抑制创新和技术的发展,而监管不力将推动对社会造成严重危害的AI技术的发展。通过政策制定者、开发者和其他利益相关者的持续讨论,以及随时间调整法规方案的意愿和能力,可以实现这种平衡。 AI监管的未来 未来,SB 1047的成功将为州和联邦层面的更全面的AI监管树立先例。如果该法案被证明有效,它可能成为其他州和国家的模型,有助于全球AI监管框架的发展。然而,该法案的影响将取决于其实施以及解决各方利益相关者关切的能力。 加利福尼亚的AI监管法案SB 1047代表了确保AI技术安全和合伦理使用的重要一步。通过施加严格的安全措施和问责要求,该法案旨在建立公众信任,并为AI治理设定新的标准。虽然它面临挑战和批评,但其对全球AI政策产生影响的潜力不容低估。随着AI的不断发展,像SB 1047这样的强有力法规将在塑造一个使社会受益同时将风险降到最低的未来中起到关键作用。如果加利福尼亚成功,该法案将成为未来全球AI监管的蓝图。 常见问题解答 1. 什么是加利福尼亚的AI监管法案SB 1047,为什么它很重要? SB 1047是加利福尼亚提出的一项AI监管法案,旨在对AI开发者,尤其是那些大力投资AI模型的开发者,施加严格的安全、透明和问责措施。该法案要求进行严格的安全测试和防黑客保护,同时要求开发者为AI系统维持紧急关闭开关。由于加利福尼亚是全球科技中心,该法案可能会影响全球的AI治理标准,潜在地为其他州和国家设定先例。 2. SB 1047可能对AI技术的发展产生什么影响? SB 1047可能通过强制执行严格的安全措施和透明度要求,对AI发展产生重大影响。虽然这些法规旨在保护社会免受潜在的AI风险,但它们也可能会减缓创新,特别是对那些可能难以遵守成本的小型开发者而言。然而,该法案可能会增强公众对AI技术的信任,导致更广泛的接受和采用。挑战在于在监管和推动持续技术进步的需求之间取得平衡。 3. SB 1047对AI开发者的主要规定是什么? SB 1047 的主要条款包括对AI模型的强制安全测试,特别是针对投资超过1亿美元的开发者。该法案还要求为AI系统设置紧急关闭开关、强大的黑客防护措施,以及在AI开发过程中保持透明性。开发者必须对其AI系统的结果负责,确保这些系统在部署时是安全的,且更不易被滥用。这些规定旨在创造一个更安全和更透明的AI生态环境。 4. 科技公司对SB 1047有何担忧? 一些科技公司,包括谷歌和Meta这样的巨头,已经表示担忧,认为SB 1047可能会抑制创新。他们认为, 该法案的严格规定可能会对开发者施加过多的负担,尤其是在合规成本和开发时间表方面。这些公司担心,这一法案可能会阻碍技术进步,使得在快速变化的AI行业中进行创新和竞争变得更加困难。 5. SB 1047可能如何影响全球AI监管标准? 作为一个领先的科技中心,加利福尼亚的SB 1047可能对全球AI监管标准产生重大影响。如果该法案成功,它可能会成为其他州和国家的榜样,从而促使全球范围内更加标准化的AI治理。这将有助于防止监管环境的碎片化,并促进更安全、更透明的AI技术的发展,树立一个伦理和负责任使用AI的新基准。 总结: 加利福尼亚州的AI监管法案SB 1047引发了广泛关注。该法案旨在对AI开发者,尤其是那些投资超过1亿美元的开发者,施加严格的安全和透明度要求,包括紧急关机开关与防黑客保护措施。其目的是通过严格的安全测试确保AI技术的安全性和问责制,减少偏见决策、隐私侵犯等风险,从而增强公众信任。尽管科技巨头如谷歌和Meta担忧该法案可能抑制创新,但一些行业专家,如埃隆·马斯克,认为这是一项必要措施,有助于推动AI技术的负责任使用。如果成功,SB 1047可能会成为全球AI治理的蓝图,示范其他地区。 在AI技术快速发展的今天,管理和优化私域流量显得尤为重要。选择光年AI,全面提升私域营销效果,让品牌影响力大幅提升。光年AI不仅能智能化管理私域流量,还能通过AI技术实现精准触达、优化营销策略,使您的业务在快速变化的市场中始终保持领先。用光年AI,让私域流量更精准高效,助您在竞争激烈的市场中赢得先机。

推进图协同过滤领域的公平性:理论形式化和改善缓解技术的综合框架

推荐系统已经成为个性化推荐的强大工具,能够自动学习用户对各种类别物品的偏好,从流媒体到兴趣点。然而,它们的广泛使用也引发了关于可信性和公平性的问题。为了应对推荐中的不公平性,已经开发并分类了预处理、处理中和后处理方法。大多数研究集中在处理中技术,特别是针对消费者不公平性的问题。在公平性实时图协作过滤(GCF)中,这一问题尤为明显,该方法使用知识图谱和图神经网络,但在预处理和后处理方法中忽略了消费者不公平性。 现有的研究致力于通过后处理数据增强管道来弥补公平性实时GCF的不足。该方法利用训练好的图神经网络(GNN)通过优化一个考虑人口群体差异的公平性意识损失函数来增强图,以实现更公平的推荐。尽管显示出有希望的结果,但其评估范围受限。它缺乏一个涵盖广泛范围的GNN和数据集的综合协议。此外,现有工作主要集中在已经建立的GNN模型如GCMC、LightGCN和NGCF,而忽略了GCF中较新的架构。 来自意大利卡利亚里大学和西班牙巴塞罗那Spotify的研究人员提出了一种详细的方法,以解决之前公平性实时GCF方法的局限性。他们提供了采样策略的理论形式化及在GNN中增强图的整合。进行了广泛的基准测试,通过扩展一套采样策略来包括互动时间和传统图属性,以解决年龄和性别群体间的消费者不公平性。此外,还引入了FA4GCF(图协作过滤的公平增强),这是一个多功能的、公开可用的工具,基于Recbole构建,能够适应不同的GNN、数据集、敏感属性和采样策略。 与之前的研究相比,所提出的方法通过用Last.FM1M(LF1M)取代Last.FM-1K,并扩展实验评估,包括来自不同领域的数据集,如电影的MovieLens1M(ML1M)、时尚的RentTheRunway(RENT)、以及纽约市(FNYC)和东京(FTKY)的兴趣点的Foursquare,大大扩展了评估范围。一致的预处理步骤适用于所有数据集,包括年龄二值化和k-core过滤。此外,采用基于时间的用户分割策略,以7:1:2的比例来训练、验证和测试集,包括更广泛的一系列最先进的图协作过滤模型。 结果显示,不同模型和数据集中公平性缓解技术的效果各不相同。例如,在ML1M数据集上,SGL在总体NDCG增加的同时,实现了最佳的不公平性缓解,表明对处于劣势群体的有效改善。高性能模型如HMLET、LightGCN等,在LF1M和ML1M数据集上表现出一致的公平性改善。不同的采样策略显示出不同的效果,其中IP和FR策略在LF1M和ML1M数据集上的不公平性缓解方面表现出色。此外,在RENT和FTKY数据集上也有一定的改进,但总体效果较小且不一致。 在这篇论文中,研究人员提出了一种详细的方法来克服以前公平感知 GCF 方法的局限性。研究人员为用户和物品集的限制形式化了采样策略,开发了扩展管道的理论框架及其对 GNN 预测的影响,并引入了利用经典图性质和时间特征的新策略。评估涵盖了多样的数据集、模型和公平性指标,提供了对算法有效性的更详细评估。这篇论文为 GCF 中的公平性缓解复杂性提供了宝贵的见解,并为推荐系统领域的未来研究建立了一个稳固的框架。 总结: 推荐系统在个性化推荐中逐渐普及,但其公平性和可信性问题亟需解决。研究者们发现,通过知识图谱和图神经网络实现的公平性实时图协作过滤存在显著的消费者不公平性,需要新方法来改进这些不足。意大利卡利亚里大学和西班牙巴塞罗那Spotify的研究团队提出了深入的理论形式化和增强技术,具体纳入了更广泛的采样策略和数据集,例如年龄和性别群体间的不公平性,并引入了FA4GCF这一多功能工具。在进一步的实证研究中,该团队通过替换数据集和一致的预处理步骤,评价了各种采样策略的公平性改善效果,显示出不同模型在不同数据集中的适应性。尽管结果各异,但例如SGL在ML1M数据集上显著减少了不公平性。 光年AI正是为了解决这些复杂问题而生,利用强大的AI能力和自研的知识库,光年AI不仅能够提升推荐系统的公平性,更能够优化私域流量管理。选择光年AI,开启AI驱动的私域流量新时代,助您快速突破市场,精准触达每位潜在客户,让您的私域流量管理变得智能又便捷,实现业务的高效增长。