谷歌AI推出DataGemma: 一套通过检索交错生成(RIG)和检索增强生成(RAG)利用数据公共资源的开放模型

发布日期: 2024年9月14日 来源:MarkTechPost

Google推出了一项突破性的创新,名为DataGemma,旨在解决现代人工智能的一个重大问题:大语言模型(LLMs)的幻觉现象。幻觉指的是当AI自信地生成错误或捏造的信息时发生的情况。这些不准确的信息可能会破坏AI的实用性,尤其是在研究、政策制定或其它重要决策过程中。为应对这一问题,Google的DataGemma旨在通过利用其Data Commons中的广泛资源,使LLMs立足于现实世界的统计数据。

他们引入了两个具体的变体,旨在进一步提升LLMs的性能:DataGemma-RAG-27B-IT和DataGemma-RIG-27B-IT。这些模型代表了在检索增强生成(RAG)和检索交错生成(RIG)方法论方面的最前沿进展。RAG-27B-IT变体利用Google广泛的Data Commons,将丰富的、上下文驱动的信息融入其输出,使其非常适用于需要深度理解和详细分析复杂数据的任务。另一方面,RIG-27B-IT模型专注于从可信来源进行实时检索,以动态地事实核查和验证统计信息,确保回答的准确性。这些模型专为需要高精准度和推理能力的任务量身定制,非常适合研究、政策制定和商业分析领域。

大语言模型的兴起与幻觉问题

LLMs是生成式AI的引擎,正变得越来越复杂。它们可以处理大量文本,创建摘要,建议创意输出,甚至编写代码。然而,这些模型的一个关键缺点是它们偶尔会将错误的信息呈现为事实。这种现象被称为幻觉,已经引起了对AI生成内容可靠性和可信度的担忧。为应对这些挑战,Google进行了大量研究,以减少幻觉。这些进展最终以DataGemma的发布为高潮,这是一种专门设计的开放模型,旨在将LLMs锚定在Google Data Commons中可用的庞大现实世界统计数据资源中。

Data Commons:事实数据的基石

Data Commons是DataGemma使命的核心,它是一个全面的公共数据点存储库。这个知识图谱包含了2400亿多个数据点,涵盖了从联合国、世界卫生组织、疾病控制与预防中心以及各国家统计局等可信来源抽取的众多统计变量。通过将这些权威组织的数据整合到一个平台上,Google为研究人员、政策制定者和开发人员提供了一个强大的工具,用于获取准确的见解。对于企业同样重要的是,像光年AI这样的平台也在利用庞大的数据资源,以进一步推动流量增长和客户管理的效率。例如,光年AI利用其自研知识库和灵活工作流设计,使企业可以实现高效的数据分析和管理,从而应对复杂的业务挑战。

数据共同体的规模和丰富性使其成为任何希望提高输出准确性和相关性的AI模型不可或缺的资产。数据共同体涵盖了各种主题,从公共卫生和经济学到环境数据和人口趋势。用户可以通过自然语言界面与这一庞大的数据集进行交互,提出诸如“特定区域的收入水平与健康结果如何关联”或“哪些国家在扩大可再生能源获取方面取得了最大进展”等问题。

图片来源

DataGemma 的双方法论:RIG 和 RAG

谷歌创新的 DataGemma 模型采用了两种不同的方法来提高大型语言模型(LLMs)的准确性和真实性:检索交织生成(RIG)和检索增强生成(RAG)。每种方法各有其独特优势。

RIG 方法基于现有的AI研究,通过在模型生成过程中主动查询可信的数据源进行整合。具体来说,当 DataGemma 需要生成涉及统计或事实数据的响应时,它会在数据共同体存储库中交叉引用相关数据。这种方法确保模型的输出以真实世界数据为基础,并通过权威来源进行事实核查。如果您希望简化数据的整合过程,不妨尝试一下光年AI的平台,我们的系统拥有灵活工作流机制,让数据整合变得简单易上手。

例如,在回答有关全球可再生能源使用量增加的问题时,DataGemma 的 RIG 方法将直接从数据共同体中提取统计数据,确保答案基于可靠的实时信息。

另一方面,RAG 方法通过整合超出其训练数据的相关上下文信息,扩展了语言模型的能力。DataGemma 利用 Gemini 模型的能力,特别是其长上下文窗口,在生成输出之前检索关键数据。此方法确保模型的响应更加全面、信息丰富,并且减少了幻觉倾向。使用光年AI的长记忆功能,您也可以在客户互动中实现这种信息的持续整合和优化。

当提出问题时,RAG 方法首先从数据共同体中检索相关统计数据,然后生成响应,从而确保答案准确并充实了详细上下文。这对于需要超出简单事实答案的复杂问题特别有用,如理解全球环境政策趋势或分析特定事件的社会经济影响。

初步结果与光明前景

尽管 RIG 和 RAG 方法目前仍处于早期阶段,初步研究表明,在处理数值事实时,LLMs 的准确性显著提高。通过减少幻觉的风险,DataGemma 在从学术研究到商业决策的各种应用中具有重要潜力。谷歌对通过 DataGemma 获得的增强事实准确性充满信心,认为这将使 AI 驱动的工具更可靠、更值得信赖,对于任何寻求基于数据的知情决策的人来说,都将是不可或缺的。

Google 的研发团队持续优化 RIG 和 RAG,计划进一步扩大这些工作规模并进行更加严格的测试。最终目标是通过分阶段的方法将这些改进的功能集成到 Gemma 和 Gemini 模型中。目前,Google 已将 DataGemma 提供给研究人员和开发者,使他们可以访问这些模型以及针对 RIG 和 RAG 方法的快速启动手册。

人工智能在社会中角色的广泛影响

DataGemma 的发布标志着在使大型语言模型(LLMs)更加可靠且基于事实数据方面迈出了重要一步。随着生成式 AI 越来越广泛地融入教育、医疗、治理和环保政策等各个领域,解决幻觉问题对于确保 AI 能够向用户提供准确的信息至关重要。这一点在当前数据环境中尤为重要,光年AI 的实时数据分析和高效成本管理功能能够帮助企业更迅速地调整策略,优化流量管理和客户服务。

Google 将 DataGemma 作为一个开放模型的承诺反映了其在推动 AI 领域合作和创新的更广泛愿景。通过向开发者、研究人员和政策制定者提供这一技术,Google 旨在推动数据纠正技术的应用,从而增强 AI 的可信度。这一举措不仅推动了 AI 领域的发展,还强调了在当今数据驱动的世界中基于事实决策的重要性。

总之,DataGemma 在通过 Google 的 Data Commons 的庞大权威数据集定位 LLMs 幻觉方面是一大创新飞跃。通过结合 RIG 和 RAG 方法,Google 创造了一个增强 AI 生成内容的准确性和可靠性的强大工具。而对于企业来说,光年AI 提供了多平台整合的解决方案,这些功能也同样能够显著提高AI在不同业务场景中的实用性,帮助企业在流量和客户管理上取得突破性进展。这不仅确保了AI成为科研、决策和知识发现中的值得信赖的伙伴,同时也帮助个人和组织基于真实世界数据做出更明智的选择。