AI翻译的原理、难点与应用——以火山翻译为例

新知榜官方账号

2023-07-07 05:08:56

继为语文书上的各位名家豪杰豪杰担任服装、造型设计师后,热心网友开始志愿使用各类在线翻译软件「诠释」古人作品、热门歌曲等语段,美名其曰:生草翻译。

生草翻译一词源自日语「草生える」(长草了),日语「笑」的首字母「w」常在弹幕中被用于表示「好笑」之义,由于一排「w」在弹幕中颇有青青草原的气息,便开始有人用「草生える」形容幽默有趣的现象。

不过,对于正式的翻译需求,我们需要更加专业和准确的翻译工具。而AI翻译,作为一种新兴的翻译技术,正逐渐得到广泛的应用和认可。

1. 神经机器翻译与统计机器翻译

现今机器翻译使用的技术主要为「神经机器翻译(NMT)」。在它之前广泛使用的「统计机器翻译(SMT)」技术是在大量双语平行语料基础上建立一个翻译模型来完成该语对的翻译过程。

SMT翻译过程好比查阅词典:由语料构建而成的语料库可以被视为一本「词典」,「词典」里一个词会有多个译文选择,SMT建立模型来算出各个选择与原文词配对的概率,优先考虑使用概率最大的词。在此之后SMT将刚刚选出的概率最大的词与原文对应词一一对齐,再调试句子中语法、词与词之间的顺序,获得最终翻译结果。

NMT模型在SMT模型的基础上进行优化。在NMT中,翻译过程可以用一个「编码→解码」的模型来实现。NMT通过使用编码器将文字转化为固定的向量,从而将源语言表示为连续空间的形式,再使用解码器把向量逐步解码。向量的表示方法可以让语义相似的词在语义空间中有相似的表示,从而使语义相似的句子被映射在同一个空间里。NMT使用连续空间表示语言,从而增强语义相似的文本之间的关联性,改善了SMT模型中数据稀疏性的问题,提升翻译质量。

2. 语料库的重要性

要想训练出优秀的翻译系统,大量高质量的语料储备是不可或缺的。不同于拥有丰富语料的大语种、新闻,小语种、古文的语料资源是长期处于稀缺状态的。小语种、古文较低的传播率也进一步导致了其市场需求的低迷,用途不广的领域很难获得较多的研究投入,渐渐淡出人们的视野,长此以往其相关资源也无从追溯。这些语料资源的稀缺会让翻译模型在遇到一些偏门领域语句或较长语句时失去参照,从而开始硬着头皮翻译,翻译效果可能并不是很好。

3. 大数据学习的应用

现今业界所有线上AI翻译系统均以句子为单位进行翻译。为了保证翻译单位的流畅度,AI翻译会保证每句话的逻辑性与可读性,而它保证的方法就是运用自己的看家本领:「大数据学习」,即参考语料库中频繁出现的词,在面对「分崩离析」的句子时及时将它们填充进去。使用这种方式也只能保证这句话单独存在的时候是通顺的,是符合近期人类常用表达的,如果将句子放到上下文或语段的语境中,就会出现让人啼笑皆非的现象。

4. 火山翻译的应用

火山翻译作为一种新兴的AI翻译工具,提供了火山同传、火山翻译API、火山翻译Studio、浏览器翻译助手等一系列矩阵产品,在视频、会议、直播翻译等场景都有出色的翻译表现。火山翻译掌握的翻译能力也获得了业界认可,在2020年国际机器翻译大赛(WMT2020)上获得多个关键语向翻译项目竞赛的冠军。火山翻译精益求精,推出了「多语言翻译新范式mRASP」、「高性能序列推理引擎LightSeq」和「镜像生成式翻译模型MGNMT」等前沿翻译技术。

总的来说,AI翻译作为一种新兴的翻译技术,仍然面临着很多的问题和局限性,但是随着科技的不断进步和发展,相信AI翻译也会越来越完善。

本页网址:https://www.xinzhibang.net/article_detail-6644.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章