文章列表-AI魔法学院

文章列表

大语言模型应用中的文本分块策略

分块的主要原因是确保我们向量化的内容的噪音尽可能少，并且具有语义相关性。

开源模型

AI声音克隆 | 最全最简教程（权威版）

TTS 的英文全名是 Text To Speech,中文译名是“文本转语音”。

声音克隆教程

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

在本文中，我们将探讨为什么GLM-4-Voice值得关注，它的独特之处，以及如何在本地设置和开始使用它。

GLM-4-Voice 9B 语音安装

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

Prompt | 抖音视频脚本

复制脚本并访问 https://beta.elevenlabs.io/speech-synthesis 以生成文本转语音。

prompt

用so-vits-svc-4.1进行音色转换的极简教程！

其实歌声转换不仅仅适用于歌声，普通讲话也可以，只是歌唱的音调基本能覆盖到低、中、高全域声音类型，而正常说话可能无法做到全域覆盖，但是如果在录制声音的时候能够做到覆盖多种音调类型，也可以实现声音转换。

so-vits-svc 音色转换教程

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

它集成了先进的语音增强（Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。

开源模型

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

十大开源语音识别项目

Automatic Speech Recognition（ASR）是一项自动语音识别技术，其目标是通过计算机自动将人类口头语音转录为文本。

语音识别开源项目

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1