首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· F5-TTS:上海交大开源超逼真声音克隆TTS,告别ElevenLabs,以后就用它了!实测真的很牛
· 技术爆炸!AI一图换脸新王者,Instant ID保姆级安装与使用测评
· 图文生成短视频的方法
· 免费的文本生成视频解决方案:AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI
· AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
· SD好复杂,是不是很糊,一文搞懂Stable Diffusion的各种模型及用户操作界面
· 国产视频制作之光-可灵:提示词大全整理
· AI高手都在用的10个提示词prompt网站,建议收藏!
· 它来了!SDXL + ControlNet 终于强强联合!
· 完全指南——使用python提取PDF中的文本信息(包括表格和图片OCR)
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
作为一种重要模态,
语
音
提供了超越文本的多样且复杂的信号,如人声中的情感、
语
调和意图,自然声
音
中的火车汽笛、钟声和雷声,以及
音
乐中的旋律。
大模型
语音
RVC和SVC声
音
模型难找?推荐这个网站
本篇文章介绍:1, 声
音
数据集训练到模型的过程 2 ,SVC和RVC声
音
模型网站推荐 一、声
音
数据集训练到模型的过程
AI
声
音
模型训练是通过分析大量
音
频数据来学习声
音
特性,生成与目标声
音
相似的新
音
频
声音克隆
数字人
Insanely Fast Whisper:超快的Whisper
语
音
识别脚本
项目简介 这篇内容介绍了OpenAI的Whisper Large v2
语
音
转录模型的超快速能力。
音频
Whisper
Google
AI
“同声传译”新进展!Google发布,无监督,
语
音
识别:Translatotron 3!
语
音
识别(ASR)是指将人类的
语
音
转换为文本的技术,然而,目前的
语
音
识别技术还面临着一些挑战,其中最大的一个就是如何支持更多的
语
言。
Translatotron
语音识别
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本文将深入介绍一下wav2lip的技术原理和细节,了解它是如何实现
语
音
驱动唇部运动的!
wav2lip
语音
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
视频
厉害了,匹诺曹Pinokio!所有
AI
工具,一键安装,全部免费!整合
AI
绘画、
AI
视频、
AI
语
音
...
Pinokio,无脑一键部署主流
AI
模型项目!
AI绘画
AI视频
AI音乐
OpenAI
基于 OpenAI Whisper 模型的实时
语
音
转文字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输入转换为文本输出,可以用于转录麦
克
风的实时
音
频输入和预先录制的
音
频文件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
「
语
音
转换新速度」— 探秘Whisper JAX的70倍速提升
在
AI
的众多分支中,
语
音
识别技术的突破性进展尤为引人瞩目。
Whisper
语音识别
「
语
音
识别的未来已来」——探索Distil-Whisper,轻量级
AI
的强大力量
在
AI
技术的浪潮中,一款新型的
语
音
识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。
Distil-Whisper
语音识别
开源
开源免费离线
语
音
识别神器whisper如何安装
whisper介绍 Open
AI
在2022年9月21日开源了号称其英文
语
音
辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种
语
言的自动
语
音
辨识。
wisper
翻译
免费
AI
+
音
乐|对话 Suno CEO:破圈的
音
乐生成产品是如何诞生的?
创始团队 Mikey Shulman:担任首席执行官,他曾担任Kensho的机器学习主管,麻省理工学院斯
隆
管理学院的讲师,哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位;
suno
音乐
开源
有道开源的国产
语
音
库EmotiVoice爆火了!具有情绪控制功能的
语
音
合成引擎!
但是近期,网易有道
AI
算法团队也开源了一款国产TTS
语
音
合成引擎EmotiVoice,刚上线仅一周时间就暴涨4200颗星,问鼎当周GitHub trending流行榜第一。
EmotiVoice
语音库
国内厂商
语
音
识别与Whisper评测:现状与概况对比
语
音
识别技术不仅可以应用于智能助手、
语
音
控制、自动化客服等领域,还有望为残障人士提供更便捷的沟通工具。
语音识别
Faster-Whisper
数字人
最强开源数字人对口型系统介绍
大家好,今天给大家介绍的是开源“最强”的数字人
克
隆
方法 Easy-Wav2Lip: 仓库地址: https://github.com/anothermartz/Easy-Wav2Lip
数字人
开源模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100