6个最佳开源TTS引擎

TTS引擎用于实现文本到语音的转换。随着人工智能的普及以及数字设备应用的增加，相关系统对语音识别以及文语转换技术日益依赖，TTS正在变得越来越重要。

在这项技术的帮助下，可以将文本内容转换为录音。可以帮助视觉障碍的人理解文本内容，可以让开车的人听取一个文本工作报告，甚至模拟某个人的声音播报一段内容、演唱一个歌曲，实现虚拟主播、虚拟歌手。

本文主要查找收集了一些较好的开源TTS引擎。这些项目有助于我们更加了解TTS的功能。

01CoQui TTS

https://github.com/coqui-ai/TTS

这是一个在研究和生产中经过了实战考验的TTS深度学习工具包，可以以200毫秒的延迟进行流传输，支持13种语言（包括中文）。

mozilla TTS

https://github.com/mozilla/TTS

TTS是一个用于文本到语音生成的高级库。旨在实现易于训练、高速度和高质量的最佳平衡。提供预训练模型，以及用于测量数据集质量的工具，支持用于产品和研究的20多种语言，包括支持中文。

OpenTTS

https://github.com/synesthesiam/opentts

OpenTTS是TTS最有效的开源模型之一。因为该模型支持包括中文在内的多种语言。

MaryTTS

https://github.com/marytts/marytts

MARY Text-to-Speech 语音合成是一个多语言TTS平台，支持英语（英国和美国）、法语、德语、意大利语、俄语等语言。

产品特点：

使用预处理技术，如tokenizer和数值扩展。

它采用多线程网络架构，并行处理多个请求。

它本质上是灵活的，因此您可以使用纯Java模型和外部模型。

它使用XML结构来提高透明度，并且对于普通用户来说易于理解。

eSpeak

https://github.com/espeak-ng/espeak-ng

eSpeak是一个紧凑的开源TTS引擎，可运行于Windows和Linux。支持100多种语种和语音（包括中文普通话）。

产品特点：

这个平台可以很容易地完成文本到语音的转换。这有助于系统理解文本的含义。

它带有两个合成器：eSpeakinG合成器，通过声音添加技术转换元音和响亮的辅音，以完成声音。Klatt合成器使用类似的技术，但使用减法合成。它使用数字滤波器来理解辅音、元音和响音之间的区别。

因为它的差异化技术和将文本转换为语音的速度优势，这个工具在2010年被谷歌翻译使用。

声音的音质清晰悦耳。

Mimic

https://github.com/MycroftAI/mimic3

Mimic是一个快如闪电的开源TTS引擎。

产品特点：

由于它基于FLITE技术，您可以自定义语音的声音。

它是一个低延迟平台，并且只占用少量的资源。

它可以在Linux、Android和Windows上无缝运行。

目前，该工具正在为患有语言障碍的人带来逼真的声音。

CMU Flite TTS

https://github.com/festvox/flite

Festival Lite通常被称为Flite。它是一个小型的运行时引擎，被认为是最快的TTS引擎之一。

由于它是一个开源引擎，并且是免费的，可以基于这个项目做许多自定义功能。因此，许多公司都选择了这个TTS引擎。

核心特点：

可以用于小型和大型文件。

它是线程安全的，其最新版本提供了一个轻松的TTS转换。

它与Windows、Linux和Android兼容。

它还提供多种语言版本。

MBROLA

https://github.com/numediart/MBROLA

MBROLA是Multi-Band Resynthesis OverLap Add的缩写，也是最常用的开源TTS引擎之一。它支持多种语言。

功能特点：

提供多语种数据库。

它对于内部文本到语音的转换非常有用。

它以前是一个非商业软件，但现在作为开源TTS引擎推出。

它提供了令人愉快的音质，具有一致性、准确性的声音音高。

09 mandarin-tts

https://github.com/ranchlai/mandarin-tts

这是一个模块化的中文普通话TTS语音合成框架，旨在支持研究和快速产品开发。

主要功能包括：

所有模块都可通过YAML配置，

支持并可配置说话者嵌入/韵律嵌入/多流文本嵌入，

适配器支持各种声码器（VocGAN、hifi-GAN、waveglow、melGAN），从而可以容易地进行不同声码器之间的比较，

支持持续时间/音调/能量方差预测器，并且可以容易地添加其他方差，

FCH-TTS

https://github.com/atomicoo/FCH-TTS

一个快速语音合成模型，适用于英语、普通话/中文、日语、韩语、俄语和藏语。

rhasspy piper

https://github.com/rhasspy/piper

piper是一个快速的本地语音合成系统，并针对Raspberry Pi 4（树莓）进行了优化。支持包括中文在内的多种语言。

使用DEMO如：

echo 'Welcome to the world of speech synthesis!' | \

./piper --model en_US-lessac-medium.onnx --output_file welcome.wav

出自：https://mp.weixin.qq.com/s/g34bTZGDgDDhfl-Dtl9g3w