文章列表-AI魔法学院

文章列表

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

但现在回想起来，那只麋鹿的“能说会道”，其实正是 OpenAI 今天才正式揭晓的“谜底”——他们开源了一个叫做嵌入式实时语音 SDK 的东西！

OpenAI 嵌入式实时语音 SDK

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

项目简介代理框架设计用于构建在服务器上运行的实时、可编程参与者。

voice agent 开源音视频

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

ClearerVoice-Studio 由阿里巴巴通义实验室开发，致力于为语音处理技术的广泛应用提供坚实支持。

ClearerVoice-Studio 语音

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

通过这两种任务，BERT能够学习到上下文感知的词嵌入和句子级别的语义表示。

Bert-vits 语音

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

whisper-live：OpenAI Whisper模型的近实时实现

项目简介 OpenAI 的 Whisper 的近乎实时实现。

OpenAI Whisper 大模型

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

导语：在当今数字化时代，人工智能技术已经渗透到各个领域。

PaddleOCR 文字识别

关于AI声音生成的一切（语音+音乐+嘴型）

其实声音生成也有很多革命性的工具，例如高质量的声音识别、文字转成人声、人声克隆、音乐生成，已经能组成完整工作流了，其中一些工具甚至已经打包好了，只要下载解压就能用！

声音

动作识别模型有哪些

TWO STREAM方法 Two-Stream方法是深度学习在动作识别方向的一大主流方向。

动作识别模型

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1