首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 第一性原理以及第一性原理是怎么帮马斯克成为首富的
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· AI声音克隆 | 最全最简教程(权威版)
· ComfyUI官方使用手册【官网直译+关键补充】
· Coze多智能体(Multi-Agents)模式体验!
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· Stable Diffusion 30分钟打造AI 写真照片生成器|海马体照相馆这次真的要木得了
· 从第一性原理看大模型Agent技术
· 精通百种语言的翻译AI来了!Meta推出,免费、开源!
· 6个最佳开源TTS引擎
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
开源语
音
大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
作为一种重要模态,语
音
提供了超越文本的多样且复杂的信号,如人
声
中的情感、语调和意图,自然
声
音
中的火车汽笛、钟
声
和雷
声
,以及
音
乐中的旋律。
大模型
语音
OpenAI
【语
音
识别】OpenAI语
音
力作Whisper
首先,通过特征提取器将原始
音
频输入变换为对数梅尔
声
谱图 (log-Mel spectrogram)。
语音转文字
whisper
开源
【语
音
领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
情感识别:SenseVoice 提供最先进的情感识别能力(例如高兴、悲伤、生气等),能够检测
音
频中的特定事件,如
音
乐、掌
声
和笑
声
等。
asr
tts
声音
RAG
24年首篇离奇论文:加点噪
声
,RAG效果翻倍?
· 研究结果发现相关文档比无关文档更有害于RAG系统,并且当放置正确时,无关但噪
声
的文档实际上有助于提高系统的准确性。
RAG
检索增强
开源
网易(TTS)EmotiVoice:开源语
音
合成,支持2000多
音
色
你是否曾经想过,如果你能用自己喜欢的
声
音
来朗读任何文本,那该多好?
EmotiVoice
语音合成
工具
AI文本转语
音
工具(TTS):MeloTTS
今天给大家介绍一个效果不错的开源文本转语
音
工具:MeloTTS MeloTTS是一个可以把文字转换成
声
音
的工具,它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。
MeloTTS
语音工具
开源
开源版GPT-4o语
音
来袭,Mini-Omni开启实时语
音
对话
如今,一个甚至更加强大的实时语
音
对话AI模型开源了!
Mini-Omni
语音
开源
工具
FFmpeg之父新作——
音
频压缩工具 TSAC
根据官网介绍,TSAC可达到非常低的比特率,例如44.1 kHz采样率下的码率可以达到单
声
道 5.5 kb/s 或立体
声
7.5 kb/s,具有良好的感知质量。
TSAC
音频工具
AI+
音
乐|对话 Suno CEO:破圈的
音
乐生成产品是如何诞生的?
与主要关注器乐作品的传统工具不同,Suno的独特之处在于它能够创作包含歌词和人
声
的完整歌曲。
suno
音乐
RAG
24年首篇离奇论文:加点噪
声
,RAG效果翻倍?!
· 研究结果发现相关文档比无关文档更有害于RAG系统,并且当放置正确时,无关但噪
声
的文档实际上有助于提高系统的准确性。
RAG
检索
论文
视频
栩栩如生,
音
色克隆,Bert-vits2文字转语
音
打造鬼畜视频实践
本次让我们基于Bert-vits2项目来克隆渣渣辉和刘青云的
声
音
,打造一款时下热搜榜一的“青岛啤酒”鬼畜视频。
Bert-vits
语音
大模型
“实时”语
音
翻译!AI语
音
具有“情绪”!最强开源AI大模型来了
你想把一段语
音
转成文字,或者把一段文字转成语
音
,但是你不知道怎么操作!
大模型
开源模型
语音
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是由腾讯团队开发的先进技术,它是一个实时高质量的
音
频驱动唇部同步模型。
MuseTalk
数字人
音频
教程
【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定
音
色、设置语速、添加停顿词、口头语、笑
声
!!
torch.tensor(np.concatenate(wavs,axis=-1)) Audio(finally_wavs, rate=24_000, autoplay=True) 效果展示: 男
声
音
展示
chattts
tts
文生语音
开源
十大开源语
音
识别项目
这项技术在多个领域有着广泛的应用,包括但不限于语
音
助手、语
音
搜索、自动转写以及语
音
命令识别。
语音识别
开源项目
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100