文章列表-AI魔法学院

文章列表

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

但现在回想起来，那只麋鹿的“能说会道”，其实正是 OpenAI 今天才正式揭晓的“谜底”——他们开源了一个叫做嵌入式实时语音 SDK 的东西！

OpenAI 嵌入式实时语音 SDK

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

它可以实现多种语音和文字之间的转换和翻译，而且只需要一个模型，就可以支持近百种语言，效果也非常出色。

大模型开源模型语音

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

语音克隆：从提供的音频文件中克隆语音或直接在应用程序中录制您的声音以进行实时克隆。

AI语音克隆实时语音识别

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

该框架包括用于常见工作流程的插件，例如语音活动检测和语音转文本。

voice agent 开源音视频

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

AIGC系列之一-一文理解什么是Embedding嵌入技术

这种嵌入可以是一个词、一个类别特征（如商品、电影、物品等）或时间序列特征等。

AIGC Embedding 嵌入技术

【语音识别】OpenAI语音力作Whisper

模型结构（融入了多任务：多语种的语音识别，语音翻译，语音语言识别，声音活动检测）模型有5个版本，参数量、支持语言、显存和速度如下： &ensp

语音转文字 whisper

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

ClearerVoice-Studio 由阿里巴巴通义实验室开发，致力于为语音处理技术的广泛应用提供坚实支持。

ClearerVoice-Studio 语音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

相比传统的基于词嵌入的模型，BERT引入了双向上下文信息的建模，使得模型能够更好地理解句子中的语义和关系。

Bert-vits 语音

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

whisper-live：OpenAI Whisper模型的近实时实现

项目简介 OpenAI 的 Whisper 的近乎实时实现。

OpenAI Whisper 大模型

关于AI声音生成的一切（语音+音乐+嘴型）

animate124.github.io/ •WhisperX（需要配环境）：带有单词级时间戳和说话人分离功能的自动语音识别

声音

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1