首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 【Stable Diffusion操作升级】Stable Diffusion 常用模型下载与说明
· 包阅AI-免费AI阅读翻译神器!
· 字节跳动最强AI工具 “豆包” ,近1000款应用!一句话自动生成图文,堪比ChatGPT?
· 大模型评测新思路:弱智吧精华问题大全
· 精通结构化提示词:如何精确操控指令的作用域与优先级
· 小白设计师福音:Stable Diffusion 16款插件测评,好用不?推荐吗?
· LangChain手册(Python版)11模块:提示模板
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
01 前言 近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声
音
克
隆
TTS模型——MaskGCT。
MaskGCT
声音克隆
工具
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语
音
克
隆
工具!
各种AI工具也层出不穷,其中 语
音
克
隆
技术 也是尤为引人瞩目的产品之一。
tts
文本转语音
关于AI声
音
生成的一切(语
音
+
音
乐+嘴型)
其实声
音
生成也有很多革命性的工具,例如高质量的声
音
识别、文字转成人声、人声
克
隆
、
音
乐生成,已经能组成完整工作流了,其中一些工具甚至已经打包好了,只要下载解压就能用!
声音
工具
FFmpeg之父新作——
音
频
压缩工具 TSAC
前两天FFmpeg作者Fabrice Bellard在个人主页发布了一款
音
频
压缩工具TSAC。
TSAC
音频工具
开源
【TTS语
音
克
隆
开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
哪款语
音
克
隆
模型最好,等你来评价~本文案例效果仅供参考!
语音克隆
开源模型
Prompt
Prompt | 抖
音
视
频
脚本
这个prompt可帮助您为 TikTok 视
频
生成极具吸引力的脚本。
prompt
开源
语
音
、视
频
转文字神器:开源whisper介绍
OpenAI的Whisper是一种基于深度学习的语
音
识别模型,它是一种通用的语
音
识别模型,可以用于语
音
识别、语
音
翻译和语言识别等任务。
人工智能
大模型
wisper
开源
从声纹模型到语
音
合成:
音
频
处理 AI 技术前沿 | 开源专题 No.45
· EnCodec:一种高保真度神经
音
频
编解码器。
AudioCraft
音频
VividTalk:用一张照片和一段
音
频
让人物栩栩如生地说话
最新的突破来自VividTalk项目,这是一个能够将单张照片和一段
音
频
结合起来,创造出仿佛真人在说话的视
频
的技术。
VividTalk
视频
RVC和SVC声
音
模型难找?推荐这个网站
本篇文章介绍:1, 声
音
数据集训练到模型的过程 2 ,SVC和RVC声
音
模型网站推荐 一、声
音
数据集训练到模型的过程 AI声
音
模型训练是通过分析大量
音
频
数据来学习声
音
特性,生成与目标声
音
相似的新
音
频
声音克隆
数字人
AI视
频
新技能!这套流程教你打造视
频
人物和声
音
完美同步!
这个视
频
中人物的身体姿势、头发、头部姿势、面部表情都在发生运动,看了上面的视
频
后,群里一位朋友问如何实现视
频
中的人物口型与
音
频
的完美同步,以及当前可行的方法。
AI视频
开源
【语
音
领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
CosyVoice 特点:包括多语言语
音
生成、零样本学习、跨语言
克
隆
和指令遵循。
asr
tts
声音
开源
GPT-4o实时语
音
方案提供商Livekit开源voice agent:轻松处理
音
视
频
流
轻松访问 LiveKit WebRTC 会话并处理或生成
音
频
、视
频
和数据流。
voice
agent
开源
音视频
数字人
一款构建AI数字人项目开源了!自动实现
音
视
频
同步!
本周GitHub项目圈选: 主要包含
音
视
频
同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。
AI数字人
音视频同步
OpenAI
whisper-live:OpenAI Whisper模型的近实时实现
它可用于转录来自麦
克
风的实时
音
频
输入和预先录制的
音
频
文件。
OpenAI
Whisper
大模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100