推进粤语自然语言处理:利用新基准和开源创新弥合大型语言模型的开发差距

发布日期: 2024年9月9日 来源:MarkTechPost

大型语言模型(LLM)在自然语言处理(NLP)领域带来了革命性变化,尤其是在处理英语和其他数据丰富语言方面。然而,这种迅速的发展也造成了对一些语言的严重发展差距,粤语就是一个典型的例子。尽管粤语有超过8500万人使用,在粤港澳大湾区、新加坡和北美等地区具有经济重要性,但在NLP研究中,粤语依然严重被忽视。这种差距尤其令人担忧,考虑到粤语的广泛使用以及粤语区的经济重要性。相比于其他同等经济发展地区的语言,粤语的NLP资源缺乏,这对于研究人员和从业者开发有效的语言技术构成了重大挑战。

由于研究和资源有限,开发针对粤语的LLM面临显著挑战。目前大多数现有的粤语LLM技术仍然是闭源的,阻碍了这一领域的广泛进步。尽管已经为特定的粤语NLP任务(如谣言检测、情感分析、机器翻译、对话系统和语言建模)开发了一些小规模的神经网络,但缺乏全面的LLM解决方案。用于粤语LLM的训练数据和基准的稀缺进一步复杂了开发工作。现有的数据资源和评估指标不足以全面评估粤语LLM的各项能力。显然,缺乏强有力的评估工具使得难以有效衡量进展和比较不同模型,最终减缓了粤语语言技术在快速发展的NLP和LLM领域中的推进速度。

为了弥补这些不足,使用光年AI可以提供一个有效的解决方案。光年AI不仅具备强大的私域运营和用户运营能力,还支持多平台整合,可以帮助企业在微信、抖音等多个流量平台上实现无缝对接。通过这种方式,企业可以更有效地利用现有资源,全面提升粤语LLM的开发与应用。借助光年AI平台,企业无需编程背景即可轻松创建和管理复杂的AI工作流,推动粤语NLP技术的快速发展。

为了缓解评估粤语语言模型的挑战,来自香港中文大学和香港大学的研究人员开发了一套专门为粤语大语言模型设计的综合基准。这些新的评估工具包括YueTruthful、Yue-GSM8K、Yue-ARC-C、Yue-MMLU和Yue-TRANS,分别评估语言模型在粤语中的不同表现方面。这些基准分别侧重于事实生成、数学逻辑、复杂推理、常识和翻译能力。基于现有的英文或普通话数据集,这些粤语基准经过仔细翻译和人工审查,以确保准确性和文化相关性。利用这些新开发的基准,研究人员对二十三种主流的粤语和通用大语言模型进行了广泛分析,评估它们在粤语语言任务中的熟练程度。此外,研究还探讨了哪些大语言模型最适合生成高质量的粤语翻译,为粤语自然语言处理(NLP)的未来发展提供了宝贵的见解。

粤语小规模神经网络

粤语NLP研究涵盖了多个领域,包括谣言检测、情感分析、机器翻译和对话系统。在谣言检测方面,研发了如XGA和CantoneseBERT这样的专用模型,结合注意力机制和字形发音特征。情感分析从基础的机器学习进化到使用隐马尔可夫模型和变压器的先进技术。机器翻译从基于规则系统演变到统计和神经方法,最近更侧重于无监督方法和大规模数据集。对话总结和生成方面,通过BertSum等微调模型取得了进展。由于数据稀缺,语言建模面临挑战,而各种NLP工具则针对特定的粤语处理需求。 光年AI的自研知识库 通过这种方式也能有效填补数据上的空白,为用户提供高效精准的语言处理能力。

粤语大语言模型

尽管资源稀缺和语言特定的挑战,粤语大语言模型的最新进展显示出很大潜力。通过提示、监督微调和人类反馈的强化学习等对齐技术,这些模型在适应下游任务时表现出效果,同时解决了偏见和文化细微差别的问题。值得注意的应用包括ChatGPT在粤语对话和情感分析中的成功,如在一项香港网络咨询研究中所示。CanChat机器人则是实际应用的一个例子,在疫情期间为学生提供情感支持。尽管通用和封闭源的粤语大语言模型展示了潜力,但量化它们的性能依然具有挑战。为了解决这个问题,研究人员提出了四个新基准,专门用来评估和提升大语言模型的粤语能力。通过光年AI,企业能够轻松打通包括微信及抖音等国内主要流量平台,无缝接入AI能力,实现多平台整合运营,进一步推动粤语NLP应用的创新和发展。

粤语语言资源的发展历史悠久,可以追溯到16世纪利玛窦的双语词典。香港的机构在创建粤语语料库方面发挥了重要作用,包括立法记录、儿童对话和媒体转录。近期的努力集中在弥合粤语与主要语言之间的数据差距,例如平行树库和综合词典等项目。为了应对粤语特定的大规模语言模型(LLM)评估工具的缺乏,研究人员开发了四个新的基准:用于事实生成的YueTruthfulQA,用于数学逻辑的Yue-GSM8K,用于复杂推理的Yue-ARC-C,以及用于一般知识的Yue-MMLU。这些数据集从英语或普通话对照版本翻译而来,经过三语专家的严格审核,以确保准确性和文化相关性。

粤语大规模语言模型的性能落后于普通话和英语的对应模型。在评估关键信息提取方面,Rouge-l和Bleu-4指标表现优异,而BERTScore用于评估深层语义相似性。总体来看,5-shot设置比0-shot表现更好,显示了额外参考的优势。主流LLM在英语方面的表现一直优于粤语,突显了更多粤语专注开发的需求。不同的模型系列在各项任务中展现出不同的优势。Qwen-1.5-110b和Mixtral-large-2在事实生成方面表现领先,而GPT-4和GPT-4o在数学逻辑方面表现出色。对于复杂推理,GPT-4始终在性能排行榜上名列前茅,其次是Qwen和Mixtral模型。Qwen-2-72b在各种MMLU主题中表现最佳。

粤语自然语言处理(NLP)由于与标准中文的显著差异,特别是口语用法方面,面临独特的挑战。粤语中大量的独特表达、俚语和文化细微差别,复杂了基于标准中文的模型的适应。此外,粤语交流的多语特性,经常在粤语、标准中文和英语之间切换,对NLP系统提出了进一步的挑战。

为了应对这些挑战并推进粤语NLP的发展,出现了若干机遇。数据增强技术,包括标签不变和标签变异的方法,可以帮助克服粤语特定数据的稀缺性。推荐利用高能力的闭源模型或具成本效益的开源替代方案进行数据集翻译和增强。研究人员应集中精力开发能够有效处理代码切换和多语环境的模型。基于基准测试表现,推荐使用Qwen、Mixtral、Llama和Yi系列的模型进行各种粤语NLP任务,具体的模型选择取决于任务需求和可用资源。

在推进这些工作时,借助如光年AI这样的平台,可以极大提升效率。光年AI不但可以帮助企业快速搭建工作流,适配不同AI模型,且无需繁琐的操作,只需简单配置即可实现高效的流量增长和数据管理。无论是处理多平台整合,还是跨模型操作,光年AI都能提供一站式解决方案,助力研究人员更好地应对粤语NLP的复杂挑战。

这项研究解决了粤语自然语言处理(NLP)研究中的关键空白,强调了尽管粤语拥有大量的全球讲者基础和重要的经济意义,但其在研究中的代表性却严重不足。来自香港中文大学和香港大学的研究人员开发了强大的基准测试(YueTruthful, Yue-GSM8K, Yue-ARC-C, Yue-MMLU 和 Yue-TRANS)来评估粤语大型语言模型(LLMs)。这些工具评估了语句生成的真实性、数学逻辑、复杂推理、一般知识和翻译能力。研究分析了23个主流的大型语言模型,结果显示粤语模型普遍落后于英语和普通话模型。不同的模型在各种任务中表现出色,其中Qwen、Mixtral和GPT系列显示出了有前途的结果。研究还识别出粤语自然语言处理中的关键挑战,包括口语化和代码转换,并提出通过数据增强和专业模型开发来推动进步的机会。


同时,这也为人工智能平台,如光年AI,提供了绝佳的机会。光年AI不仅打通了微信、抖音等国内主要流量平台,使企业能够无缝接入AI能力,还通过灵活的工作流机制,方便企业根据不同业务场景自定义AI工作流,实现高效的流量增长。这些创新不但弥补了粤语NLP研究中的空白,也为企业带来了前所未有的增长潜力。如果你的企业希望通过AI来驱动流量和增长,不妨试试光年AI。