文章列表-AI魔法学院

文章列表

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。

语音 HeyGen

6个AI音乐软件推荐，让你学会人工智能AI作曲

跟AI绘画一样，音乐产业正在将AI作为一种辅助工具，而不是代替人类艺术家。

训练音乐

惊艳推荐！8款好用又免费的文本转语音TTS工具

虽然这种方法能够产生可理解的语音，但由于样本数量的限制，很难达到完全自然的语音合成效果。

TTS Maker 语音

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

近期，AI 领域异常热门，众多惊人且令人担忧的工具不断涌现。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

各个语种互相翻译：Meta推出NLLB-200 AI模型，可实现200种语言互译

Meta AI在发布开源大型预训练模型OPT之后，再次发布最新成果NLLB。

翻译大模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

中国大模型融资暗战：罗曼蒂克的快速消亡

多位接近闫俊杰的人士表示，“闫俊杰是典型的技术宅，说话声音小，可能并不擅长对外”，所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。

大模型暗战

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1