【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
AI魔法学院
2024-11-06
分享海报


今天给大家同时展示5(FishF5GPTCosyVoiceMaskGCT)爆火的语音克隆-文本合成的效果展示。哪款语音克隆模型最好,等你来评价~本文案例效果仅供参考!下面进入今天的主题~

需要特别注意:本文只是技术分享,在使用对应模型进行语音合成时,需要严格遵照对应项目的要求和法律法规!!

本文目录

  • 5款爆火开源TTS语音克隆项目
    • GPT-SoVITS模型介绍
    • MaskGCT模型介绍
    • F5-TTS语音模型介绍
    • FishSpeech1.4模型介绍
    • CosyVoice模型介绍
    • 模型对应的license总结
  • 实战篇:部署5款模型进行语音克隆
    • GPT-SoVITS模型代码语音克隆-推理部分
    • fish-speech1.4模型代码语音克隆
    • F5-TTS模型推理部分代码
    • Mask-GCT模型推理部分代码
    • CosyVoice模型的推理代码
  • 效果篇:5款语音克隆模型效果展示
    • 案例1: 萝莉语音克隆-5款模型语音克隆--效果展示
    • 案例2: 萝莉语音克隆-5款模型语音克隆-带数字文本-效果展示
    • 案例3: 萝莉语音克隆-5款模型语音克隆-长文本-效果展示
    • 案例4: 中文动漫人物语言克隆-5款模型语音克隆-中英文克隆-效果展示
    • 案例5: 中文动漫人物语言克隆-5款模型语音克隆-短文本克隆-效果展示
  • 参考链接

5款爆火开源TTS语音克隆项目

GPT-SoVITS模型介绍

GPT-SoVITS项目是TTS克隆领域内效果常年霸榜的模型之一,具有以下功能:

  • 零样本文本到语音(TTS: 输入 5 秒的声音样本,即刻体验文本到语音转换。
  • 少样本 TTS:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  • 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
  • WebUI 工具:集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

该文章的目录如下,详情见:【34.8k点赞量!】TTS领域内明星模型GPT-SoVITS实操教程来啦;2秒语音就能克隆,效果过于惊艳,请谨慎使用!

MaskGCT模型介绍

大型文本到语音(TTS)系统通常被分为自回归和非自回归系统。自回归系统隐式地建模了持续时间,但在鲁棒性方面存在一定的缺陷,并且缺乏持续时间的可控性。非自回归系统在训练期间需要显式的文本和语音之间的对齐信息,并预测语言单位(例如音素)的持续时间,这可能会影响其自然性。在1024日,趣丸科技&香港中文大学提出一种完全非自回归的TTS模型——掩码生成编解码器变换器(MaskGCT),它消除了对文本和语音监督之间显式对齐信息的需求,以及对音素级别持续时间预测的需求。

该项目的目录如下,详情见:【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice,XTTS-v2

F5-TTS语音模型介绍

F5-TTS是由上海交通大学(Shanghai Jiao Tong University)、剑桥大学(University of Cambridge)、以及极氪汽车研究院(Geely Automobile Research Institute (Ningbo) Company Ltd.)的研究团队联合开发的。具有以下特点:

  1. 改进的文本表示F5-TTS使用ConvNeXt对输入文本进行细化,以改善与语音的对齐,解决了E2-TTS中存在的鲁棒性问题。
  2. Sway Sampling策略F5-TTS提出了一种新的推理时采样策略,称为Sway Sampling,它显著提高了模型的性能和效率。这种采样策略可以轻松地应用于现有的基于流匹配的模型,而无需重新训练。
  3. 更快的训练与推理F5-TTS的设计允许更快的训练,并且在推理时实现了0.15的实时因子(Real-Time Factor, RTF),与现有的基于扩散的TTS模型相比,这是一个显著的改进。
  4. 零样本能力F5-TTS在公共100K小时多语言数据集上训练,展示了高度自然和富有表现力的零样本能力,以及无缝的代码切换能力。
  5. 开源F5-TTS的代码和检查点被开源,以促进社区发展。

该项目的目录如下,详情见文章:【克隆TTS领域又更新啦】上海交大开源F5-TTS: 只需要2秒就能克隆语音,可商用,合成语音效果让我震惊不已!

FishSpeech1.4模型介绍

fish.audio团队最新开源的FishSpeech1.4;支持中文、英文等8种语音,具有以下特点:

  • 零样本和少样本文本转语音(TTS:输入一个1030秒的语音样本,即可生成高质量的TTS输出。有关详细指南,请参见语音克隆最佳实践。
  • 多语言和跨语言支持:只需将多语言文本复制粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
  • 无需音素依赖:该模型具有强大的泛化能力,不依赖于音素进行TTS。它可以处理任何语言脚本的文本。
  • 高度准确:对于5分钟的英文文本,实现了约2%的低CER(字符错误率)和WER(词错误率)。
  • 快速:借助fish-tech加速技术,在Nvidia RTX 4060笔记本电脑上实时因子约为1:5,在Nvidia RTX 4090上为1:15
  • WebUI推理:功能强大,基于GradioWeb UI,兼容ChromeFirefoxEdge等浏览器。
  • GUI推理:提供与API服务器无缝协作的PyQt6图形界面。支持LinuxWindowsmacOS。见GUI
  • 部署友好:可以轻松设置推理服务器,原生支持LinuxWindowsMacOS,最小化速度损失。该文章的目录如下,详情见文章:【又一款王炸级别语音克隆TTS模型】FishSpeech重磅开源1.4版本!语音合成更逼真!跟最近爆火F5-TTS相比如何呢?

CosyVoice模型介绍

CosyVoice是一个语音生成模型,能够合成自然声音,适用于多种应用。模型支持五种语言:中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型:

  • CosyVoice-base-300M:擅长准确代表说话者身份,无需微调即可适应不同上下文,能够跨语言克隆声音。
  • CosyVoice-300M-25HzCosyVoice-300M-SFT:能够生成富有情感表现力的语音,允许通过指令文本进行精细调整。
  • CosyVoice-300M-SFT:已针对七位多语言说话者进行了微调,适合立即部署使用。

语音合成模型 CosyVoice 功能特点:

  • 多语言支持CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
  • 零样本学习:能够无需训练即可适应新说话者(zero-shot in-context learning),能够在不同语言之间复制声音。
  • 情感共鸣:能够创建情感共鸣的声音, CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
  • 高质量语音合成:生成的样本在词错误率(WER)和说话者相似性方面达到人类水平。
  • 语音定制化:能够根据特定说话者生成多语言语音,适应新说话者而无需训练。
  • 语音克隆与风格迁移:支持在不同语言之间进行语音克隆和情感风格迁移。

该项目的目录如下,详情见文章:【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!

模型对应的license总结

  • CosyVoice模型: Apache-2.0 license
  • GPT-SoVITS模型: MIT  license
  • F5-TTS模型:源代码是 MIT License,预训练模型是 CC-BY-NC license
  • Fish-Speech-1.4模型: 这个模型在BY-CC-NC-SA-4.0 License下获得了宽松的授权。源代码在BSD-3-Clause License
  • MASK-GCT模型: 代码AmphionMIT License, 模型是cc-by-nc-4.0 License

实战篇:部署5款模型进行语音克隆

在本次实验中5款模型的版本参数: GPT-SoVITSV2版本、fish-speech1.4 F5-TTS Mask-GCTCosyVoice-300M-25Hz;其中核心的代码如下:

GPT-SoVITS模型代码语音克隆-推理部分

%%time 
%cd /kaggle/working/GPT-SoVITS
!rm -rf gpt_sovits_output.wav
!python GPT_SoVITS/src.py  --gpt_model  
"GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt" \
    --sovits_model 
"GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth" \
    --ref_audio {ref_audio} --ref_text {ref_text} \
    --target_text  {content}
clear_output()

fish-speech1.4模型代码语音克隆

%%time 
%cd /kaggle/working/fish-speech
!rm -rf fishspeech14_output.wav

#  从语音生成 prompt
!python tools/vqgan/inference.py \
    -i {ref_audio} \
    -o 
"outputs/fake.wav" \
    --checkpoint-path 
"checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"
# clear_output()
!rm -rf codes_*.npy
# 从文本生成语义 token
!python tools/llama/generate.py \
    --text {content} \
    --prompt-text {ref_text} \
    --prompt-tokens 
"outputs/fake.npy" \
    --checkpoint-path 
"checkpoints/fish-speech-1.4" \
    --num-samples 
1 \
    --temperature 
0.1 \
    --half 
# clear_output()
# 从语义 token 生成人声
!python tools/vqgan/inference.py \
    -i 
"codes_0.npy" \
    --checkpoint-path 
"checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" \
    -o 
"fishspeech14_output.wav"
# clear_output()
!ls -lh |grep generate
!ls -lh |grep code
!ls -lh  outputs

F5-TTS模型推理部分代码

%%time
%cd /kaggle/working/F5-TTS
!rm -rf tests/*
!f5-tts_infer-cli \
--model 
"F5-TTS" \
--ref_audio {ref_audio} \
--ref_text {ref_text}  \
--gen_text {content} 
# clear_output()
!ls -lh tests/

Mask-GCT模型推理部分代码

%%time 
%cd /kaggle/working/Amphion
!rm -rf mask_gct_output.wav
!python maskgct_main.py --ref_audio {ref_audio} \
    --ref_text {ref_text}  \
    --ref_language 
'zh' \
    --output_path 
"./mask_gct_output.wav" \
    --target_text {content}

CosyVoice模型的推理代码

%%time 
%
cd  /kaggle/working/CosyVoice
!rm -rf cosyvoice_output.wav
!
source activate cosyvoice &&  export PYTHONPATH=third_party/AcademiCodec:third_party/Matcha-TTS &&  \
    python demo.py --ref_audio {ref_audio} \
            --ref_text {ref_text} \
            --ref_language 
'zh' \
            --output_path 
"./cosyvoice_output.wav" \
            --target_text {content}

参考链接

  1. https://github.com/SWivid/F5-TTS
  2. https://hf-mirror.com/amphion/MaskGCT
  3. https://hf-mirror.com/fishaudio/fish-speech-1.4
  4. https://github.com/RVC-Boss/GPT-SoVITS
  5. https://github.com/FunAudioLLM/CosyVoice

大家好,今天给大家实操5款爆火的语音克隆模型的效果案例展示,哪款好用等你来评价!本文仅供参考,语音克隆受音频文件和文本内容以及模型性能所影响。

需要特别注意:本文只是技术分享,在使用模型进行语音合成时,需要严格遵照对应项目的要求和法律法规!!

原文出自:https://mp.weixin.qq.com/s/AbVAy8OXkyvjRfxJdDQRTg

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip