报告题目: HBLLM:基于小波增强的LLM高保真1比特量化技术
报 告 人:江颖 教授
报告时间:2026年5月10日(星期日)上午10:15-10:45
报告地点: 37号楼3A02
邀 请 人: 刘晓霞 副教授
欢迎广大师生前往!
数学学院
2026年4月27日
报告摘要:
随着大语言模型参数规模持续增长,其训练、推理与部署所需的存储成本和计算开销 rapidly 增大,如何在尽可能保持模型性能的前提下实现高效压缩与低成本部署,已成为当前人工智能研究中的重要方向。大模型量化技术通过将模型权重、激活值甚至部分计算过程从高精度表示压缩到低比特表示,能够显著降低显存占用、带宽压力与推理能耗,是推动大模型走向边缘设备部署、低成本推理和大规模应用落地的关键手段。然而,在超低比特尤其是 1-bit 量化场景下,模型表达能力急剧受限,量化误差显著放大,如何在极致压缩率与模型精度之间取得平衡,仍然是该方向的核心挑战。
本报告将介绍一种面向大语言模型的高保真 1-bit 训练后量化方法HBLLM。该方法引入小波变换,对权重进行频率分解,从而增强模型在极低比特表示下的表达能力,并在较小额外开销下显著提升量化精度。在此基础上,HBLLM进一步设计了两种结构感知策略:其一是面向频率信息的行内多参数分组机制,其二是基于 ℓ2 范数的显著列选择机制。对于非显著权重,方法在同一频带内跨量化组共享均值,以进一步优化存储效率。实验结果表明,HBLLM在OPT和LLaMA等模型上均取得了优异表现,在1-bit量化任务中达到当前先进水平。该工作为大模型极低比特量化提供了一种兼顾结构信息、频率表示与存储效率的新思路,也为大模型在资源受限环境中的高效部署提供了有价值的技术参考。
报告人简介:
江颖,中山大学教授,博士生导师,广东省计算科学重点实验室副主任。主持或参加包括国家自然科学基金项目、教育部项目、国家重点研发计划课题、广东省面上项目等多个项目与课题,面向高精度快速并行计算方法、大规模并行计算等领域关键问题开展研究。在NeruIPS、International Journal of Digital Earth、IEEE TMI、IEEE IoT、Knowl. Based Syst、J. Comput. Phys.、SIAM Numer. Anal.、Math. Comp.等计算机与数学顶级期刊/会议发表论文 50 余篇。
