机器翻译峰会MTS2023于9月8日在中国澳门圆满落幕。会议举办的第一届古汉语机器翻译竞赛(EvaHan2023)吸引了来自北京大学、南京大学、华南理工大学、香港中文大学、北京理工大学等知名科研机构的20多支队伍报名参赛。我院金连文教授带领的团队提出的基于大语言模型(LLM)的方案在比赛中获得冠军。
文言文是中国传统文化的载体,文言文-现代文的自动翻译,有助于了解古代中国历史,传承中华优秀传统文化。然而文言文和现代文在语法结构、表达习惯等方面存在较大区别,给文言文-现代文翻译带来了挑战。同时,文言文中常用省略句式,在翻译过程中恢复省略的部分要求翻译系统具备丰富的先验知识。
针对文言文翻译中的难点,金连文教授团队提出了以下解决方案。首先,基于大规模预训练的语言模型LLaMA,使用文言文数据来扩充词表,并创新性地使用预训练模型的词嵌入对文言文词表进行融合扩充,以充分利用预训练模型中存储的知识。其次,整合和精炼现有的文言文语料,构建了一个大规模的文言文数据集,并使用该数据集对扩充词表后的模型进行增量式无监督预训练,使模型具备了丰富的文言文先验知识。最后,针对比赛数据进行多阶段的有监督训练,在机器翻译指标中达到了29.68的BLEU得分和26.14的CHRF得分,以明显优势获得竞赛冠军。该成绩也大幅领先百度翻译的25.57BLEU得分。
参赛团队成员包括曹家欢(硕士生),彭德智(博士生),施永鑫(博士生),江宗源(硕士生)和金连文(指导老师)。(文/曹家欢,彭德智 ,初审/曾抒姝,终审/张健)
附:获奖证书如图1.