近期,我院教师团队在国际学术领域捷报频传,多篇研究成果成功发表于中国计算机学会(CCF)推荐的软件工程、人工智能领域 A 类国际学术会议,包括自动化软件工程国际会议(ASE)、国际软件测试与分析会议(ISSTA)、国际软件工程会议(ICSE)、计算语言学协会年会(ACL)、国际机器学习会议(ICML)等。
论文介绍
论文题目:Mixture-of-Experts Low-Rank Adaptation for Multilingual Code Summarization (ASE 2025)
作者:于天辰、袁理、黄海林、王杰新、蔡毅*
论文概要:多语言代码摘要旨在为不同编程语言的代码片段生成自然语言描述,以提升开发效率与代码可维护性。然而,现有方法在多语言场景下面对训练数据极度稀缺的低资源语言时,常因梯度冲突与知识迁移不足而性能骤降。为突破这一瓶颈,我们的工作首次提出MMLoRA,我们首次引入了通用专家+语言专属专家的双路径多专家微调架构,该架构有效促进知识迁移的同时缓解了多语言训练中的梯度冲突。此外,我们还设计了专家损失函数,确保专家间的差异化与训练的稳定性。我们在两大公开的多语言CodeSearchNet与XLCoST数据集进行了广泛实验, MMLoRA仅通过微调不到2%的模型参数,就在低资源语言上实现了高达20%以上的性能提升,综合性能全面超越基线方法。该工作为低资源情况下解决多语言多任务的软工问题提供了新的思路。
论文题目:A Low-Cost Feature Interaction Fault Localization Approach for Software Product Lines(ISSTA 2025)
作者:王海宁、向毅*、黄翰*、曹捷、陈凯晨、杨晓伟
论文概要:特征交互缺陷定位作为软件产品线系统(如Linux、AUTOSAR、Firefox)调试过程中的一项核心任务,因潜在交互数量呈指数级增长而导致搜索空间庞大、调试成本高。现有方法虽然通过基于可疑特征选择(例如,选取出现在失败配置中但未出现在通过配置中的特征)来构建潜在交互并进行筛查,部分缓解了上述问题,但普遍忽略了特征交互缺陷与测试失败之间的因果关系,导致生成大量冗余交互,进一步扩大了搜索空间,增加了缺陷定位的成本。针对这一问题,该工作提出了一种面向软件产品线的低成本反事实推理缺陷定位方法,通过反事实推理和对称不确定技术减少搜索空间,同时基于两点关键性观察节省冗余计算以提升缺陷定位效率。实验结果表明,在不降低定位性能的情况下,该方法在小型系统上可缩小 51%~73% 的搜索空间,在大型系统上可缩小 71%~88%,平均运行速度达到先进方法的 15.6倍,显著降低了缺陷定位的成本与复杂度。
题目:A Multiple Representation Transformer with Optimized Abstract Syntax Tree for Efficient Code Clone Detection (ICSE 2025)
作者:于天辰、袁理、林连南*、何宏魁
论文概要:代码克隆检测旨在识别功能相同或相似的代码片段,对代码复用、缺陷检测等任务具有重要意义。抽象语法树(AST)具有丰富的代码结构知识,然而,现有方法利用AST解决代码克隆问题上存在信息冗余与结构噪声问题,导致检测效率低、泛化性差。为此,本文提出MRT-OAST,一种融合优化AST与多视角表示的高效克隆检测框架。该方法通过剪枝冗余节点、引入符号类型与统一控制结构,构建紧凑且语义丰富的OAST,并设计基于纯孪生网络的多表示Transformer模型,仅需一次前向即可批量生成代码向量,实现毫秒级相似度计算。在OJClone、GCJ与BigCloneBench三大数据集上的实验表明,MRT-OAST在保持结果几乎不变下,评测速度大幅提升,为大规模实际项目中的高效代码克隆检测提供了新思路。
题目:CADReview: Automatically Reviewing CAD Programs with Error Detection and Correction(ACL 2025 Oral)
作者:陈嘉力、黑旭森、刘鸿飞、魏源成、邓紫坤、谢嘉元、蔡毅*、李青
论文概要:计算机辅助设计(CAD) 审核任务旨在自动检测并修复 CAD 程序错误,以提升设计效率,并确保生成的三维模型与参考的设计图保持一致。然而,现有方法在实现这一目标时仍面临挑战:对由多个几何部件构成的复杂装配体,难以细粒度定位出错部件;对部件之间的隐蔽空间关系(如遮挡与层级嵌套)感知受限,导致无法同步完成空间几何操作与相应代码修正。为克服这一局限,本文提出 ReCAD:一种基于多模态大语言模型(MLLM)的 CAD 程序修复方法。具体而言,我们设计了由反馈生成器与代码编辑器组成的双模块框架,反馈生成器用于对齐几何部件与程序代码并定位潜在错误,代码编辑器根据反馈执行几何操作并完成程序修复。同时,我们构建了数据样本超过20K的 CADReview 数据集,涵盖8种多样化的程序错误类型与真实设计场景。在实验结果中,ReCAD 在CAD模型一致性、错误修复率等方面均显著优于现有方法,展现出广阔的应用潜力。
论文题目:RTADev: Intention Aligned Multi-Agent Framework for Software Development (ACL 2025)
作者:刘杰,王国华,杨荣晖,曾嘉杰,赵梦辰*,蔡毅*
论文概要:基于大语言模型(LLM)的多智能体框架在解决现实世界软件开发任务中展现出巨大潜力——不同角色的智能体间的沟通效率远胜人类。尽管效率卓越,但LLM智能体难以实现完全相互理解,这常在开发过程中引发错误。更关键的是,错误的累积极易导致整个项目失败。为减少此类错误,我们提出了意图对齐的多智能体框架RTADev,该框架通过自我修正机制确保所有智能体基于共识协同工作。RTADev模拟人类团队模式,允许个体随时发起会议以达成一致。具体而言,该框架集成对齐检查阶段和条件性临时小组评审阶段,从而以最少的智能体通信量有效减少错误。在多样化软件开发任务上的实验表明,RTADev在代码可执行性、结构完整性与功能完备性方面显著提升了生成软件的质量。
论文题目:Ad Hoc Teamwork via Offline Goal-Based Decision Transformers (ICML 2025)
作者:张馨支,陈浩熙,叶德珩,蔡毅,赵梦辰*
论文概要:智能体能够与之前未曾合作过的队友即时协作,这种能力被称为临时团队协作(Ad Hoc Teamwork, AHT),在许多现实应用中至关重要。现有的AHT方法通常需要与环境进行在线交互,并依赖一些经过精心设计的队友。然而,这些前提条件在实际中可能难以满足。在本研究中,我们将AHT问题扩展到离线场景,即自我代理(ego agent)的策略直接从多智能体交互数据集中学习。我们提出了一种名为TAGET的分层序列建模框架,以应对离线场景中的几个关键挑战,包括数据有限、部分可观测性以及在线适应能力。TAGET的核心思想是动态预测考虑队友行为的未来奖励(teammate-aware rewards-to-go)和子目标,从而使自我代理能够实时适应队友行为的变化。大量实验结果表明,TAGET在离线设置下的AHT任务中显著优于现有的解决方案。
(图文:陈秋余)