文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

LLMOps框架Dify发布Workflow功能，RAG进入自由编排时代（附产品负责人分享PPT ）

工作流编排是目前最好的平衡模型能力以及生产需求的妥协办法。

RAG 自由编排 Workflow

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

各种AI工具也层出不穷，其中语音克隆技术也是尤为引人瞩目的产品之一。

tts 文本转语音

国内厂商语音识别与Whisper评测：现状与概况对比

梳理市场上的语音产品及服务，我们可以看到，其中既包括国际巨头: · Google：Google Cloud

语音识别 Faster-Whisper

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

惊艳推荐！8款好用又免费的文本转语音TTS工具

虽然这种方法能够产生可理解的语音，但由于样本数量的限制，很难达到完全自然的语音合成效果。

TTS Maker 语音

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

该框架包括用于常见工作流程的插件，例如语音活动检测和语音转文本。

voice agent 开源音视频

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

MetaAI这次再为开源贡献重磅产品：AudioCraft，一个支持多个音频生成模型的音频生成开发框架。

开源模型

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

AI异常值案例库第2期，5个灵感案例，新型流量获客法和产品形态

但穿一套西装去拍一组职业照是比较麻烦的事情，甚至还贵以往的方法是用PS把衣服覆盖上去，但总是会很别扭现在用PS AI自动扫描生成衣服，多套可选，颜色可变，选到你满意为止有需求，有产品能力

文生图

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

就像直播里的那只麋鹿，它能听懂你的问题，然后用自然流畅的语音跟你聊天，就是这个 SDK 的功劳！

OpenAI 嵌入式实时语音 SDK

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1