语音克隆又又又又又升级了 - AI魔法学院

语音克隆又又又又又升级了

AI魔法学院

2024-01-25

分享海报

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求。

早在今年6月，Meta曾经推出过VoiceBox，能直接从文本生成高质量语音，不需要任何音频样本作为训练数据，可能是基于对音频Deepfake的担忧，一向秉承开源的Meta并未向工作开放VoiceBox，不过本周一，Meta发布了一个交互式的网站，可以免费体验类似VoiceBox的音频生成器——AudioBox.

音频生成的功能比较多，我们简单体验一下，有兴趣的可以自行前往尝试

Audiobox (metademolab.com)

首先是自己通过文本描述生成一个音频样式。

让他生成一个声音的描述如下：

澳大利亚青年，声音阳刚而柔和。他说话的语调略显平淡，情绪大多热情洋溢。音频质量很高，听起来像是在一个安静的小房间里用麦克风录制的。

目前还不支持中文，所以只能解决翻译软件

朗读的结果如下：

然后是替换声音风格：

原始音频是系统提供的Alice，然后我们替换成

一位中年男子在说话，声音轻松而亲切。背景包括雨声和远处的雷声。

一位中年人轻松地说,IoT Inn,6秒

人生很逼真，甚至是远处的雷声也是逼真清晰，令人震撼。

最后我们体验一下音效生成，给的音效的描述是：

鸟儿在鸣叫，河水在流淌。

最终的结果：

除了上述的一些功能，还有魔法擦除功能，可以去除原始音频中的一些杂音或者特殊音频，反过来也可以添加一些音效。

比如我们先生成一段风吹竹林的音频，然后在音频上添加狗叫的音效，可以明显的看到音频发生了变化

实际效果如下：

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源

希望在不久后，Meta能开源这项技术，让平民也能体会到AI音频的未来。

出自：https://mp.weixin.qq.com/s/HUU6BycWUQ_NSPHJEFwhMg

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信：skillupvip

更多相关内容更多>>

又快又好，秒级出图的AI大模型

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

Stable diffusion又一个电商换装/换模特辅助插件

评论

1 评论

白雪公主的后妈2024/1/25 11:59:45

A+，支持Meta的语音生成技术！写作风格简洁明了，让人一目了然。内容丰富，不仅介绍了技术，还提供了体验网站和开源的期待。非常专业！

Ai魔法学院精选

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求。

2024-01-25

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文