文章列表-AI魔法学院

文章列表

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

就像直播里的那只麋鹿，它能听懂你的问题，然后用自然流畅的语音跟你聊天，就是这个 SDK 的功劳！

OpenAI 嵌入式实时语音 SDK

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

中国大模型融资暗战：罗曼蒂克的快速消亡

多位接近闫俊杰的人士表示，“闫俊杰是典型的技术宅，说话声音小，可能并不擅长对外”，所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。

大模型暗战

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它在语音合成方面表现卓越，利用先进的深度学习技术，实现了高质量的语音输出，其发音精准、流畅自然，仿佛真人发声。

Westlake -Omni 语音

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

创始团队 Mikey Shulman：担任首席执行官，他曾担任Kensho的机器学习主管，麻省理工学院斯隆管理学院的讲师，哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位；

suno 音乐

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

第一性原理以及第一性原理是怎么帮马斯克成为首富的

第一性原理是怎么帮马斯克成为首富的？

马斯克商业

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。

chattts tts 文生语音

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1