近日,中国计算机学会推荐的人工智能领域A类国际学术会议NeurIPS 2025论文接收结果公布,我院共有5篇论文被录用(其中2篇Spotlight论文),分别来自谭明奎教授团队和吴庆耀教授团队。NeurIPS,全称为神经信息处理系统大会(Advances in Neural Information Processing Systems),是全球机器学习、人工智能和计算神经科学领域最负盛名的顶级学术会议之一。据悉,第39届NeurIPS会议将于2025年12月2日至7日在美国圣地亚哥举行,同时在墨西哥城设立分会场。
论文介绍
论文题目:SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios (Spotlight)
通讯作者:吴庆耀
论文概要:基于手物交互2D视频与3D动作本质上共享着真实世界的物理动力学基础这一动机,该工作提出一种视频-动作共生框架,能够从参考图像与文本指令中同时生成手物交互视频与对应的动作序列。方法上,首先通过一个同步扩散模型将视频生成与运动合成统一于联合去噪过程中,有效融合视觉先验与运动学约束。其次,引入视觉感知的3D动作扩散模型,生成显式动作序列,并与同步扩散模型形成闭环反馈机制,从而增强视频与动作之间的一致性。此外,为更好地整合文本语义、视觉外观与运动动态的异构特征,该工作提出三模态自适应调制机制进行特征对齐,并采用三维全注意力机制以挖掘深层特征关联。
论文题目:Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection(spotlight)
通讯作者:谭明奎
论文概要:针对AI生成视频类型多样且生成技术快速发展,导致视频真实性检测难问题,从第一性原理出发,提出了归一化时空梯度(NSG)统计量论文题目:MTRec: Learning to Align with User Preferences via Mental Reward Models,通过概率流守恒原理量化视频空间概率梯度与时间密度变化的比值,揭示生成视频中的物理不一致性;理论分析了生成视频与真实视频的NSG分布差异,证明了生成视频与真实视频在该统计量的MMD距离大于真实视频之间的距离;基于该统计量提出了通用的视频检测方法NSG-VD,该方法对自然视频的分布进行建模,不依赖特定生成模型或攻击类型,对未知生成范式(如Sora)和迁移场景具有较强的检测效果。实验表明NSG-VD方法在Recall和F1-score指标分别超越已有最新方法16%和10%。
论文题目:Continual Knowledge Adaptation for Reinforcement Learning
通讯作者:谭明奎
论文概要:针对智能体在连续学习一系列任务时普遍存在的“灾难性遗忘”(即学会新任务后遗忘旧任务)和知识难以跨任务迁移的核心瓶颈,提出了持续强化学习方法CKA-RL,通过为每个任务学习紧凑的“知识向量”,并在新任务中动态融合历史知识,实现了知识的高效积累与复用。同时,引入自适应知识合并机制,有效缓解了任务数量增加带来的存储与扩展性问题。实验表明,CKA-RL在多项标准测试中性能显著优于现有最优方法,平均性能提升达4.20%,前向迁移能力提升8.02%,同时在模型内存和推理效率上均展现出显著优势。
论文题目:Open-World Drone Active Tracking with Goal-Centered Rewards
通讯作者:谭明奎
论文概要:首次系统性地解决了开放世界中无人机主动视觉跟踪所面临的两大核心挑战:缺乏高保真、多样化的评估基准,以及现有方法在复杂干扰下难以实现鲁棒跟踪。团队提出了首个面向开放世界的无人机主动跟踪基准 DAT,涵盖24个复杂开放场景、真实目标行为与高保真无人机动力学,并配套数字孪生工具支持无限场景生成。针对现有方法因固定前向视角导致的感知局限,论文理论分析了传统基于欧氏距离奖励的失效机制,进而提出基于强化学习的 GC-VAT 框架,设计视角无关的Goal-Centered Reward与课程式训练策略。实验表明,GC-VAT 在DAT 上相较当前最优方法在累积奖励上提升约400%,并在真实视频中实现83.9%的动作预测准确率,显著验证了其跨场景、跨域及仿真到现实的强大泛化能力。
论文题目:MTRec: Learning to Align with User Preferences via Mental Reward Models
通讯作者:赵梦辰
推荐模型主要通过用户的隐式反馈进行训练,因为显式反馈的获取成本通常较高。然而,隐式反馈(例如点击行为)并不总能反映用户的真实偏好。例如,用户可能因为新闻文章的标题吸引人而点击,但在阅读内容后却感到不适。在缺乏显式反馈的情况下,这类错误的隐式信号可能会严重误导推荐系统。本文提出MTRec,一种新颖的序列推荐框架,旨在通过挖掘用户对推荐项目的内在满意度,使推荐结果与用户真实偏好保持一致。具体而言,我们引入了一个心理奖励模型来量化用户满意度,并提出一种分布式的逆向强化学习方法来学习该模型。所学习到的心理奖励模型随后用于指导推荐模型,使其更好地契合用户的真实偏好。实验表明,MTRec能够显著提升多种推荐模型的性能。我们将MTRec部署在一个工业级短视频平台上,观察到用户的平均观看时长提升了7%。
(图文:陈秋余)