近日,我院庄辉平副教授团队论文“Analytic Subspace Routing: How Least-Squares Works in the Continual Learning of Large Language Model”被国际人工智能与计算机视觉权威会议《IEEE/CVF International Conference on Computer Vision(ICCV)》接收,相关技术正与小米公司探索深度合作,论文成果得到小米公司CEO雷军点赞。
小米公司CEO雷军点赞该论文
该论文提出了大模型持续学习框架Any-SSR,首次用传统矩阵分析的解析方程解决大语言模型在持续学习领域的核心难题——“灾难性遗忘”问题,实现极高程度历史知识保留,同时能无缝学习新知识。
灾难性遗忘是深度神经网络持续学习遇到的核心问题,其表现为模型在学习新的任务时会对旧任务表现出剧烈的性能下降。为了解决灾难性遗忘,当前的方案要么过于注重旧知识的保留而忽视了新知识的学习,要么困于多个任务之间知识的干扰,影响了整体的持续学习性能。庄辉平副教授团队提出的Any-SSR框架针对每个任务实施独立的模型训练以构建模型知识库,并采用无遗忘的路由器模型实现模型的选择。
Any-SSR训练与推理框架示意图
解析路由器Any-SSR训练基于庄辉平副教授2022年在人工智能权威会议NeurIPS提出的解析持续学习分支。该分支是人工智能持续学习领域中一个全新的细分方向,至今已发表CCF-A文章超10篇。Any-SSR首次将解析持续学习拓展至大模型领域,实现了快速,准确,简单高效的大模型持续学习,并保障了任务之间知识的独立与可扩展,为大模型的知识拓展与更新提供了新的思路。
IEEE/CVF International Conference on Computer Vision (ICCV) 是人工智能与计算机视觉领域的国际权威会议,为中国计算机学会A类推荐会议(CCF-A),与CVPR、NeurIPS、ICML等被公认为全球人工智能权威会议,学术影响力高,入选难度较大。该论文第一作者为我院2023级博士生童楷,通讯作者为该生导师庄辉平副教授,合作作者包括我院2023级硕士生何润,计算机学院本科生郭诺妍,小米AI团队研究员潘康、张霄、孟二利以及香港理工大学博士后崔亚文等。(图文/吴贤铭智能工程学院)