文章列表-AI魔法学院

文章列表

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。

语音 HeyGen

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

内置的AI对话模块。

ai小车 esp32 开源

我为什么不看好大模型行业

展望未来总是宏大而乐观的，这一篇则恰恰相反。

大模型

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

近期，AI 领域异常热门，众多惊人且令人担忧的工具不断涌现。

生成式AI

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 不仅有一个开源的 voice agent 方案[1]，还能为你提供一个成熟且强大的实时多模态 AI 解决方案。

GPT-4o 语音交互

真超越了GPT？国产大模型实用场景横评②

这是娱乐资本论·视智未来在第一次做大语言模型文本应用能力测试时，写下的第一句话。

大模型

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动最近推出了一款名为PersonaTalk的AI模型，这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。

PersonaTalk 视频

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1