站内搜索

电信未来携手,数字孪生人实验室6篇论文在信号处理顶会ICASSP宣讲

ICASSP(International Conference on Acoustics, Speech and Signal Processing) 是IEEE主办的信号处理领域顶级国际会议,是语音方向最具代表性的顶会,在国际上享有盛誉并具有广泛的学术影响力。目前第48届ICASSP会议正在希腊召开,我院与未来技术学院携手,广东省数字孪生人重点实验室共有6篇论文被录用,论文方向聚集语音情感识别、说话者个性识别、多模态语音情感识别、目标分类和检测等,其中多模态语音情感识别的论文获得本次会议Top3%的荣誉。

广东省数字孪生人重点实验室于2021年由广东省科学技术厅正式批准成立,未来技术学院牵头、电子与信息学院共同建设。


论文简介:

  1. MGAT: MULTI-GRANULARITY ATTENTION BASED TRANSFORMERS FOR MULTI-MODAL EMOTION RECOGNITION

论文作者:范为铨,邢晓芬,蔡博仑,徐向民

论文简介:

多模态情感识别对于人机交互至关重要。现有算法尝试通过交叉注意力机制来实现多模态交互。由于原有注意力机制存在噪声引入和计算量大的问题,窗口成为一种新趋势。 然而情感在不同模态之间是异步呈现的,这使得很难在对应的窗口之间进行情感交互。此外,多模态数据在时序上是不对齐的,因此单个固定窗口大小很难描述跨模态信息。在本文中,我们将这两个问题放在一个统一的框架中,并提出了基于多粒度注意力的 Transformers (MGAT)。 它通过多粒度注意机制解决情感异步和模态不齐问题。在国际公开数据库上的实验结果证实了我们方法的有效性,在相同实验设置下达到了最先进的性能。

  1. DST: Deformable Speech Transformer for Emotion Recognition

论文作者:陈炜东,邢晓芬,徐向民等

论文简介:

得益于多头自注意机制,Transformer在语音情感识别(Speech Emotion Recognition, SER)领域取得了令人瞩目的成果。与原始的全局注意机制相比,基于局部窗口的注意机制在学习细粒度特征方面更加有效,同时可以极大降低模型的冗余度。然而,情感信息是以多粒度的方式存在的,预先设定的固定窗口会严重降低模型的灵活性。此外,我们难以得到最优的窗口设置。针对上述问题,本文提出一个可变形的Transformer结构来对语音情感信号进行建模,记作DST(Deformable Speech Transformer)。DST可以通过一个轻量的决策网络,根据输入语音的特性动态决定注意机制中的窗口大小。同时,我们引入一个与输入语音信号相关的偏移量来调整注意力窗口的位置,使DST能够自适应地发现并关注到语音信号中有价值的情感信息。我们在IEMOCAP和MELD数据库上进行的大量实验,证明了DST的优越性。

  1. DWFormer: Dynamic Window Transformer for Speech Emotion Recognition

论文作者:陈帅琦 邢晓芬 张伟彬 陈炜东 徐向民

论文简介:

语音情感识别对人机交互至关重要。现有的Transformer模型虽能进行全局关系建模,但对于多粒度情感信息的捕获能力不足。在本文中,我们提出了基于Transformer模型的语音情感识别框架DWFormer,该框架能够动态地捕获不同粒度的情感信息。具体来说,我们提出了DWFormer模块,其由DLWT和DGWT模块组成。DLWT模块利用特征情感分数,为对应输入语音特征动态地划分时间窗口,并在各窗口内通过局部关系建模,捕获局部情感信息。DGWT模块负责从全局角度衡量时间窗口间的情感重要性,并重新衡量输入特征的情感分数。在IEMOCAP和Meld数据集上的实验结果证明了所提出框架的有效性。

  1. Speaker-aware Hierarchical Transformer for Personality Recognition in Multiparty Dialogues

论文作者:韩文静,陈艺荣,邢晓芬,周国华,徐向民

论文简介:

基于我们先前开源的 CPED数据集,构建了一个多方对话人格数据集。每个数据样本以一个说话人为中心,提取不同场景下多情感粒度的对话,标注说话人的大五人格,使一个数据样本包含多角度的人物性格特质。同时,我们提出了一个名为 SH-Transformer 的模型来识别对话中的大五人格,其中 Personalized Embeddings (PE) 采用特殊标记来区分中心说话人与其他说话人,而 Hierarchical Transformer 从句子级别和对话级别中捕获不同的人格线索。实验结果表明在对话中同时考虑交互信息和多样化人格特质的必要性。

  1. Look and Think: Intrinsic Unification of Self-Attention and Convolution for Spatial-Channel Specificity

论文作者:高翔,林宏辉,李昱,方瑞妍,张鑫

论文简介:

卷积和注意力机制是深度学习中的两个重要范式。许多工作将他们视为独立的算子以结合他们来获取共同的优点。在本工作中,我们从空间和通道来思考他们关于视觉表征的核心性质,我们结合了注意力机制的空间特异性和卷积的通道特异性来弥补对方的缺点,并集成到名为SCS模块的统一的算子。SCS模块集成到CNN模型和Transformer模型中在多个通用图像任务上验证了有效性。

  1. Clean Sample Guided Self-Knowledge Distillation for Image Classification

论文作者:王继越,李艳雄,贺前华,谢伟

论文简介:

主流的两阶段知识蒸馏方法与数据增强的结合是有效的。然而,在线自知识蒸馏方法由于缺乏可信的教师预测,与数据增强结合的效果不佳。为了解决这个问题,我们提出了一种干净样本指导的自知识蒸馏(CleanSD)方法。该方法采用干净样本作为教师样本,可以有效指导标签混合数据增强与标签保留数据增强之后的学生样本的神经网络训练。在多个国际公开的图像数据集上验证了我们方法的有效性和鲁棒性。在相同实验条件下,我们方法获得了更佳的性能。


(文/范为铨,编辑/燕维英,初审/唐杰,复审/曾抒姝,终审/张健)