语音克隆技术:未来的社交工具?

新知榜官方账号

2023-09-20 09:18:27

语音克隆技术:未来的社交工具?

如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?这个场景并不遥远,不久前,“AIFirst”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。

语音克隆技术是什么?又能做些什么?语音合成技术有三种,但只有AI技术才称为语音克隆。语音克隆技术可以将人的声音通过人工智能技术“克隆”出来,并能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。语音克隆技术可以用来订制个人AI助手、读书音频以及残疾人语音系统等,在心理医疗领域,如果能复原出逝者的声音,这对于痛失亲人后在心理上造成了创伤的人们来说,也无疑是巨大的安慰。不过语音克隆也会带来一些麻烦,它可能会被用来对公众人物进行恶意攻击,也可能会使声纹识别形同虚设。

实现“完美”的语音克隆,最大一道坎在哪?完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素。目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注。想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。

在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。

本页网址:https://www.xinzhibang.net/article_detail-12568.html

寻求报道,请 点击这里 微信扫码咨询

关键词

语音克隆 AI技术 语音合成

分享至微信: 微信扫码阅读

相关工具

相关文章