AI配音技术是否能代替人工字幕?了解声音克隆、合成声音及其欺诈应用

新知榜官方账号

2023-07-04 01:41:05

今年,《鱿鱼游戏》大火。随着Netflix等流媒体的兴起,非英语作品也越来越多。然而,字幕和配音行业的人才却非常紧缺,尤其是小语种直译方面。为此,不管是Netflix,还是小型的本地化供应商,都在探索能不能用AI配音技术代替人工字幕。

一个时代,终究还是落幕了。11月22日,上海第三中院对「人人影视字幕组」侵权案进行公开审理,并当庭作出一审判决。以侵犯著作权罪判处被告人梁永平有期徒刑三年六个月,并处罚金人民币一百五十万元。违法所得予以追缴,扣押在案的供犯罪所用的本人财物等予以没收。

随着Netflix等流媒体的兴起,像是《鱿鱼游戏》这类的非英语作品也越来越多。然而,字幕和配音行业的人才却非常紧缺,尤其是小语种直译方面。还是以《鱿鱼游戏》为例,如果想将其推向西班牙语市场,通常会先输出英文版的字幕,然而再在这个基础上进行法语翻译。也就是说,部分语种字幕的质量完全取决于英文的翻译如何,而这个转化过程难免会丢失很多信息细节。据统计,《鱿鱼游戏》的配音版比字幕版的观看人数还要多。为此,不管是Netflix这样的流媒体巨头,还是一些小型的本地化服务供应商,都在探索能不能用AI技术代替人工翻译。

那么,AI到底是能行,还是不能行?这就得从DeepfakeVoice是什么开始说起了。DeepfakeVoice复制或克隆一个人的声音,常用到的一项技术叫DeepfakeVoice,也称为语音克隆或合成语音,其目的是使用AI生成一个人的语音。目前,这项技术已经发展到可以在音调和相似度上非常精确地复制人声的地步。

声音克隆是一个过程,在这个过程中,人们使用计算机生成真实个体的语音,使用人工智能(AI)创建一个特定的、独特的声音的克隆。要克隆某人的声音,必须有训练数据输给人工智能模型。这些数据通常记录了目标人说话的例子。人工智能可以使用这些数据来呈现一个真实的声音,比如可以用文字键入的任何东西生成一段语音,这个过程称为文本到语音。在以往的文本到语音(TTS)系统中,训练数据是关键组成部分,它控制了语音输出的产生。换句话说,你听到的声音就应该是数据集中给出的声音。不过现在,随着最新AI技术的引入,使用一些目标声音的特征,比如语音波形,也可以进行更深入的分析和提取。

合成声音是一个术语,也就是通常所说的DeepfakeVoice,合成声音也经常与声音克隆互换使用。但简单来说,合成语音就是计算机生成的语音,也叫语音合成,一般是通过人工智能(AI)和深度学习来实现的。合成声音的方式主要有两种:文本到语音转换(TTS)和语音到语音(STS)。文本到语音转换(TTS)在上文中已经介绍过,目前,TTS软件已被用于帮助视障人士阅读数字文本,还被搭载在语音助手等其他应用上。而语音到语音(STS)不是使用文本,而是使用一段语音修改其声音的特征来创建另一段听起来很真实的合成语音。过去的语音合成并不能生成以假乱真的声音。但是随着技术的发展,这种情况已经改变。

传统的语音合成通常使用两种基本技术。这两种技术是拼接合成和共振峰合成。拼接合成采用的方法是将录制声音的短样本拼接在一起,形成一个称为单元的链。这些单元然后被用来生成用户定义的声音模式。而共振峰合成这种技术最常用来复制人们用元音发出的声音。这些方法的缺点是,它们时不时会生成一些人们无法发出的声音。但是深度学习和人工智能的出现将TTS技术带到了新的高度。AI文本到语音转换通常被称为神经文本到语音转换,它利用神经网络和机器学习技术从文本中合成语音输出。

中文版DeepfakeVoice尝鲜吗?今年10月,GitHub上的一个项目狂揽13k星。只需5秒,就能用AI技术来模拟声音来生成任意语音内容,并且还支持中文。根据上传的演示视频来看,声音模仿的也很逼真。MockingBird的主要特性包括:支持普通话并使用多种中文数据集进行测试;适用于pytorch,已在1.9.0版本中测试,GPUTeslaT4和GTX2060可在Windows操作系统和Linux操作系统中运行(苹果系统M1版也有社区成功运行案例);仅需下载或新训练合成器(synthesizer就有良好效果,复用预训练的编码器/声码器,或实时的HiFi-GAN作为vocoder);提供一个Webserver可查看训练结果,供远程调用。

DeepfakeVoice带来的语音欺诈是一个很大的问题。2019年,犯罪分子克隆了一家总部位于英国的能源公司CEO的声音,骗走了24万美元,原因就是这个假CEO在口音和语气上听起来都是十分真实的。这起事件是欧洲已知的第一起直接使用人工智能的网络犯罪。另一起事件发生在2020年。一位在阿拉伯联合酋长国工作的银行经理接了一个电话,他当时以为他在和一家公司的董事说话,结果掉进了一个彻头彻尾的语音骗局,错误地批准了3500万美元的转账。随着技术的发展,DeepfakeVoice诈骗变得越来越复杂,许多人可能在社交媒体上就已经遇到过一些DeepfakeVoice伪造的声音。

有两种方法来防范DeepfakeVoice欺诈。第一种方法是创建一个检测器,分析声音以确定它是否是使用deepfake技术制作的。不幸的是,因为DeepfakeVoice技术会不断发展,检测器无法永远保持正确。第二种方法则相对更加现实,主要是实现一个听众听不到、人们也无法编辑的音频水印。音频水印本质上是声音被创造、编辑和使用的记录。这样一来,人们就更容易知道一段声音是否是合成的。

本页网址:https://www.xinzhibang.net/article_detail-5135.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯