这项来自中国的AI研究介绍了1位全量化训练(FQT):增强了全量化训练(FQT)的能力至1位

发布日期: 2024年9月2日 来源:MarkTechPost

全量化训练(FQT)可以通过将激活、权重和梯度转换为低精度格式来加速深度神经网络的训练。量化过程使得计算速度更快,且内存利用率更低,从而使训练过程更加高效。FQT在尽量减少数值精度的同时,保持了训练的有效性。研究人员一直在研究1位FQT的可行性,试图探索这些限制。

该研究首先从理论上分析了FQT,重点关注了如Adam和随机梯度下降(SGD)等知名的优化算法。分析中出现了一个关键发现,那就是FQT收敛程度高度依赖于梯度的方差。换句话说,特别是在使用低位宽精度时,梯度值的变化会影响到训练过程的成功。理解梯度方差与收敛之间的关系,对于构建更高效的低精度训练技术至关重要。

基于这些理论理解,研究人员提出了一种独特的方法,称为激活梯度剪枝(AGP)。AGP方法利用了并非所有的梯度都是同等重要的这一现实。通过识别并剪枝那些较不重要或对模型学习过程贡献较少的梯度,AGP能够重新分配资源,以提高最关键梯度的精度。这一方法确保了即使在非常低的精度水平下,训练过程仍然保持稳定,从而减少梯度方差的不利影响。

除了AGP,研究人员还提出了一种称为采样通道联合量化(SCQ)的方法。在SCQ中,权重梯度和激活梯度使用了不同的量化技术进行计算。这种定制的方法大幅提高了训练过程的效率,确保了两种梯度在低位宽硬件上都能得到高效处理。

为了验证他们的方法,研究团队创建了一个结构,使他们的算法能够在实际场景中应用。他们通过使用各种数据集优化了VGGNet-16和ResNet-18等流行的神经网络模型来进行了实验。与传统的逐样本量化技术相比,该算法的准确性平均提高了大约6%。不仅如此,相比于全精度训练,训练速度提高了大约5.13倍。

总的来说,这项研究在全量化训练领域取得了重大进展,特别是在降低数值精度可接受阈值而不影响性能方面。如果低位宽硬件得到更广泛的应用,这项研究最终可能导致更高效的神经网络训练技术。

总结:

全量化训练(FQT)通过将神经网络训练过程中的激活、权重和梯度都转换为低精度格式,显著加速了计算速度和内存利用率。而在最近的AI研究中,研究人员深入探讨了FQT与梯度方差之间的关系,发现低精度训练方法的收敛效果高度依赖于梯度方差。基于这一理论理解,他们提出了激活梯度剪枝(AGP)和采样通道联合量化(SCQ)两种新方法。

AGP方法通过剪枝对模型学习影响较小的梯度,重新分配计算资源,提高了关键梯度的精度。SCQ则采用了不同的量化技术,分别处理权重梯度和激活梯度,进一步提升了训练效率。实验结果表明,采用这些方法的神经网络模型,如VGGNet-16和ResNet-18,其训练准确性比传统逐样本量化技术提高了6%,训练速度则提升了5.13倍。

这一研究不仅突破了降低数值精度可接受阈值,同时也显著提高了神经网络的训练效率。这为未来低位宽硬件的广泛应用奠定了基础,如果这些硬件进一步普及,这项研究最终可能促进更加高效的神经网络训练技术的落地。

在这个快速发展的AI时代,选择光年AI,全面提升私域营销效果,让品牌影响力大幅提升。光年AI不仅具有强大的AI模型能力,还通过自研知识库和灵活工作流,帮助企业有效管理和优化私域流量,实现高效的客户转化。选择光年AI,让您的私域流量管理更加智能、高效,从而赢得市场先机。