将AI部署成本降低8倍!你的电脑可以运行Llama 2 大模型

部署大型语言模型(LLM)在消费级硬件上是一个巨大的挑战,因为模型大小和计算效率之间存在固有的权衡。量化等压缩方法提供了部分解决方案,但通常会牺牲模型性能。

为应对这一挑战,近日Yandex Research、IST Austria、KAUST和Neural Magic的研究人员联合开发了两种压缩方法——加性量化语言模型(AQLM)和PV-Tuning。

AQLM 将每个模型参数的位数减少到2 - 3位,同时在极限压缩场景下保持甚至增强模型准确性。其关键创新包括对权重矩阵的学习加性量化,适应输入变异性,并在层块之间联合优化代码簿参数。这一双重策略使AQLM在压缩技术领域设立了新的基准。

AQLM的实用性通过其在GPU和CPU架构上的实现得到了验证,使其适用于现实应用。比较分析显示,AQLM可以在不影响模型性能的情况下实现极限压缩,如其在零样本任务中的模型困惑度和准确性指标上显示的优异结果所示。

PV-Tuning是一种表示无关的框架(a representation-agnostic framework),它概括并改进了现有的微调策略,解决模型压缩过程中可能出现的误差问题。PV-Tuning在受限情况下提供了收敛保证(convergence guarantees),并且在高性能模型(如Llama和Mistral)的1-2位向量量化中表现优于以前的方法。通过利用PV-Tuning,研究人员实现了第一个针对Llama 2模型的2位参数的帕累托最优量化。

当AQLM和PV-Tuning结合使用时,可以实现最佳效果——紧凑的模型即使在有限的计算资源上也能提供高质量的响应。

这些方法的有效性通过对流行的开源模型如LLama 2、Mistral和Mixtral的严格评估得到了验证。研究人员压缩了这些大型语言模型,并根据英语基准测试WikiText2和C4评估了答案质量。即使模型被压缩到了12.5%时,它们的答案质量仍保持在95%。

*测试中答案的平均准确度越接近原始模型,新方法在保持答案质量方面就越好。上述图表显示了这两种方法的综合结果,它们将模型压缩了平均约为8倍。

据介绍,新方法也为开发和部署专有语言模型和开源LLM的公司提供了巨大的资源节约。例如,压缩后的130亿参数的Llama 2模型只需1个GPU即可运行,相比之下,原模型需要4个GPU,从而使硬件成本降低最高达8倍。此举使得初创公司、个人研究者和LLM爱好者能够在他们的日常计算机上运行先进的LLM,譬如Llama。

AQLM和PV-Tuning使得在计算资源有限的设备上离线部署模型成为可能,为智能手机、智能音箱及更多设备开辟了新的使用场景。用户可以在这些设备上使用文本和图像生成、语音助手、个性化推荐甚至实时语言翻译等功能,而无需联网。

此外,使用这些方法压缩的模型能够以快达4倍的速度运行,因为它们需要的计算量减少了。

目前,全球的开发人员和研究人员现在可以在GitHub"上使用AQLM和PV-Tuning。作者提供的演示材料"为有效训练各种应用的压缩LLM提供了指导。此外,开发人员还可以下载已经使用这些方法压缩的流行开源模型"。

阅读剩余
THE END