火山翻译团队在WMT22中获得非洲小语种翻译任务第一的成绩

新知榜官方账号

2023-07-06 12:54:48

非洲语言的现状

非洲是世界上面积第二大的大洲,也是世界上第二个人口大洲,其大陆上存在2146种语言——约占世界语言总数的三分之一。广袤的面积、繁多的种族,还有宗教传播和殖民统治的影响,使其成为世界上语言最复杂的一个大陆。然而,随着英语、法语等语言在非洲的普及,这些承载着多样文化的两千多种语言正在逐渐无声消亡。在过去的几年里,低资源语种的机器翻译质量得到了很大提升,这得益于多语言机器翻译的跨语种知识共享、语料挖掘还有大语言模型的应用。然而还是有很多语言,特别是上述的非洲语言,进展并不顺利。去年的多语言机器翻译任务上,以爱尔兰语和威尔士语为代表的印欧语系获得了平均19.3BLEU的大幅提升,而以富拉尼语和伊博语为代表的非洲语种的平均提升只有3.5BLEU。究其原因,一是相比于其他语言,非洲语言鲜被重视;二是非洲语言种类繁多,大多数语言使用人数不到百万,其中有些甚至只以口语形式流传,这两者导致缺乏足够的非洲语言语料数据,非洲语种的机器翻译效果也难以提升。

字节跳动火山翻译的解决方案

字节跳动的火山翻译团队从几年前就开始深耕多语言机器翻译技术,旨在通过跨语言技术提升小语种的翻译能力,克服非洲语言等小语种语料数据缺乏的问题,并通过扩大单个模型的语种数提升服务稀有语种翻译请求的GPU利用率。在近两年的顶级自然语言处理的学术会议ACL、EMNLP上火山翻译发表多篇论文,包括嫁接预训练语言模型的使用,通过对齐技术扩充语料数量的方法mRASP,以及集成对比学习的mCOLT方法,利用子网络划分来避免小语种对大语种的干扰技术,以及为每个语种保留部分独有参数从而达到互不干扰,快速训练的adapter结构。

技术细节及实验结果

火山翻译团队自研的系统获得了WMT22中非洲小语种翻译任务全场最好成绩:平均spBLEU21.9,较第二名高出4.3个点(+24.4%)。火山翻译采用开放式系统,可以使用额外数据,其他系统采用受约束系统,只能使用主办方规定的数据,但参考以往的评测成绩,这一区别仍旧不能完全弥补BLEU上的差距。此外,火山翻译系统超越了同是开放系统的NLLB模型。火山翻译系统的提升来源于越来越大的大模型使用,通过集成预训练、数据增强等其他技术达到单一模型全面提升所有语种翻译质量的目的。在训练策略和模型选择上和NLLB以及历届的评测系统不同,火山翻译追求简洁的模型和通用的训练流程,放弃了更加复杂的优化技巧,比如集成学习,重排序等等,也没有使用NLLB中的课程学习(curriculumlearning),专家模型(MixofExperts),taggedbacktranslation等精细的调优手段。

本页网址:https://www.xinzhibang.net/article_detail-6385.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯