实验室中稿一篇EMNLP文章

发布时间:2024-09-28浏览次数:527

     近日,EMNLP 2024公布了录用论文列表,组里博士生冯华文同学的“Improving Factual Consistency of News Summarization by Contrastive Preference Optimization”论文被录用为长文findings。


     自然语言处理中的经验方法会议(Conference on Empirical Methods in Natural Language Processing,简称EMNLP)是由国际计算语言学协会ACL举办的自然语言处理和人工智能领域最重要的学术会议之一,在CCF学术推荐列表中认定为B类会议,CAAI学术推荐列表和清华计算机学术推荐列表中认定为A类会议。EMNLP每年举办一次,涵盖机器翻译、信息抽取、文本生成、情感分析等众多主题,该会议今年将于11月12日至16日在美国迈阿密举行。


论文题目:Improving Factual Consistency of News Summarization by Contrastive Preference Optimization


论文简介:当前,大型语言模型(LLM)在生成摘要任务中大放异彩,但它们生成的内容经常存在与原文不一致的问题,这种现象被称为大模型“幻觉”。与之前的小型生成模型(如BART和T5)不同,当前的LLM不会犯低级的错误而是一些更为复杂的错误,如强加因果关系、添加虚假细节、过度概括等。上述幻觉很难通过传统方法检测到,这也给提高生成摘要的一致性带来了巨大的挑战。在这篇论文中,我们提出了对比偏好优化(CPO)方法,解耦LLM在生成摘要时的两种倾向:忠实性倾向和创造性倾向。不同于训练LLM常用的强化学习方法(如PPO和DPO),该方法不依赖于外部的奖励模型或成对的偏好标注,仅需sft的数据格式就可以完成它训练。同时,我们还提出了一种基于探针的参数特定的训练方法,可以更有针对性地提高LLM区分两种倾向的能力。通过我们的方法的训练,LLM可以更准确地执行指令,对幻觉行为有更强的感知。大量的实验结果与可视化图表表明,CPO显著地提高了基于LLMs生成摘要的可靠性。



模型代码:https://github.com/201736621051/CPO