百度机器翻译发布全球首个感知上下文的同传模型DuTongChuan

新知榜官方账号

2023-07-06 13:56:27

背景

百度机器翻译团队发布了全球首个感知上下文的机器同传模型DuTongChuan,该系统基于百度飞桨PaddlePaddle平台开发,可以实时地翻译演讲内容并以语音播报的形式传递给观众。

关键技术

为了提高翻译的流畅度和一致性,百度提出了三种关键技术:语义信息单元传统的机器同传存在一个比较尴尬的问题是,它的翻译并不流畅。度同传教给模型语义信息单元(InformationUnit,IU)传统的机器同传存在一个比较尴尬的问题是,它的翻译并不流畅。模型会不断从自动语音识别(ASR)模型中读取实时语音流,并确定其信息单元边界,将语音流切分成一个一个翻译单元。部分解码在训练过程中,通过掩盖句子中其他信息单元的内容,可以让模型同时学习预测目标译文和部分原文信息,达到提前预测的功能。上下文感知解码对于句子中其他的信息单元,则采用上下文感知解码模型进行翻译。此模型的特点是:•在训练过程中,强迫该模型学习如何在给定部分翻译内容的情况下继续翻译。•在解码过程中,丢弃一部分此前生成的翻译,以便进行更流畅的翻译。

应用场景

该系统已成功应用于百度2019开发者大会,将演讲内容实时地翻译给现场观众收听。现场反馈,延时大多不到3秒。与传统的字幕投屏同传相比,算得上是真正的沉浸式体验,如同人工同传一般。

本页网址:https://www.xinzhibang.net/article_detail-6411.html

寻求报道,请 点击这里 微信扫码咨询

关键词

百度 机器翻译 同传模型

分享至微信: 微信扫码阅读

相关文章