文章列表-AI魔法学院

文章列表

关于AI声音生成的一切（语音+音乐+嘴型）

其实声音生成也有很多革命性的工具，例如高质量的声音识别、文字转成人声、人声克隆、音乐生成，已经能组成完整工作流了，其中一些工具甚至已经打包好了，只要下载解压就能用！

声音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

BERT的核心思想是通过在大规模文本语料上进行无监督预训练，学习到通用的语言表示，然后将这些表示用于下游任务的微调。

Bert-vits 语音

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

【语音识别】OpenAI语音力作Whisper

这么多的标注数据使得我们可以直接在有监督语音识别任务上预训练Whisper，从标注音频转录数据中直接习得语音到文本的映射。

语音转文字 whisper

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

【进阶】-文生图术语解释

黑话# 缩写/术语解释 oneshot 一张图

文生图

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

本次我们基于coqui-ai TTS的2.0版本来让钢铁侠托尼斯塔克先生开口讲16国语言。

coqui-ai TTS 语音

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

用户可以通过简单的文本提示进行创作，生成多种音乐风格的高质量音乐和语音。。

suno 音乐

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1