文章列表-AI魔法学院

文章列表

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

主要功能包括： · 支持多种声音变化 AI § MMVC § so-vits-svc § RVC(Retrieval-based-Voice-Conversion

AudioCraft 音频

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

只需提供一段简短的音频样本，它就可以根据该样本生成与原始声音极其相似的克隆声音，并且支持多种语言，目前包括中文、英文、日语、韩语等，甚至还扩展到了法语、德语、意大利语等16种语言，为用户提供了更广泛的应用可能性

clone-voice 声音克隆

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

最受欢迎的15个ChatGPT提示词，优化给ChatGPT用户，拿走不谢

我已经针对每个提示词进行优化，以便ChatGPT更好地理解和执行任务。

ChatGPT 提示词

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐

EmotiVoice 语音库

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

大模型能自己优化Prompt了，曾经那么火的提示工程要死了吗？

人类设计 prompt 的效率其实很低，效果也不如 AI 模型自己优化。

prompt 大模型提示

精通结构化提示词：如何精确操控指令的作用域与优先级

结构化提示词中，用的最多的是Markdown语法。

提示词结构化

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1