新知榜官方账号
2023-09-20 09:18:27
如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?这个场景并不遥远,不久前,“AIFirst”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。
语音克隆技术是什么?又能做些什么?语音合成技术有三种,但只有AI技术才称为语音克隆。语音克隆技术可以将人的声音通过人工智能技术“克隆”出来,并能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。语音克隆技术可以用来订制个人AI助手、读书音频以及残疾人语音系统等,在心理医疗领域,如果能复原出逝者的声音,这对于痛失亲人后在心理上造成了创伤的人们来说,也无疑是巨大的安慰。不过语音克隆也会带来一些麻烦,它可能会被用来对公众人物进行恶意攻击,也可能会使声纹识别形同虚设。
实现“完美”的语音克隆,最大一道坎在哪?完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素。目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注。想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。
在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。
相关工具
相关文章
推荐
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08