首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 必看!阿里通义千问完整技术报告
· MCP服务介绍及应用场景报告-来自Manus
· 复旦开源中文医疗大模型,基于百川微调,模型和数据集都公开
· 国内厂商语音识别与Whisper评测:现状与概况对比
· 实测:本地跑llama3:70B需要什么配置
· SD插件|EasyPhoto|妙鸭相机平替|美颜算法
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· Stable Diffusion教程:提示词
· 建议收藏:超详细ChatGPT(GPT 4.0)论文润色指南
· 爆火的“女孩的一生”,plus版教程它来了
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
数字人
数字人直播哪家强?百度、硅基、风平与闪剪四大AI数字人横向评测!
「闪剪智播」在使用上有一个点与其他三款产品都不同,就是它的数字人只能使用
录
音文件驱动,虽然它本身也有一个插件是文本转AI声音,而且声音库还很丰富,但合成的音
频
却不能用于驱动数字人。
数字人
数字分身
AI+音乐|对话 Suno CEO:破圈的音乐生成产品是如何诞生的?
Mikey:“虽然我学的是物理,但音乐始终是我的激情所在,我
录
过一张EP。
suno
音乐
懒人福音!用AI生成会议纪要,让你的工作更高效!
会议音
频
一般有几种,手机或
录
音笔的音
频
,腾讯会议的音
频
等,那如何把音
频
转成文本呢?
会议纪要
AI工具
教程
用so-vits-svc-4.1进行音色转换的极简教程!
其实歌声转换不仅仅适用于歌声,普通讲话也可以,只是歌唱的音调基本能覆盖到低、中、高全域声音类型,而正常说话可能无法做到全域覆盖,但是如果在
录
制声音的时候能够做到覆盖多种音调类型,也可以实现声音转换。
so-vits-svc
音色转换
教程
人工智能
6个AI音乐软件推荐,让你学会人工智能AI作曲
在当下的应用中,AI已经可以影响音乐制作过程的各个方面,包括音乐生成、音
频
掌握等。
训练
音乐
教程
AI声音克隆 | 最全最简教程(权威版)
请看自己开发 一个免费的文本转语音小工具 如果你觉得功能少,可以使用国内的魔音工坊,但是要收费的哈 但这些都不能指定声音转换,所以这里使用声音克隆,来将指定人声训练成模型,然后文字转音
频
。
声音克隆
教程
换脸
AI 换脸——Deepfacelab 下载与安装,新手教程
程序处理完成之后,在 ==workspace\data_src== 目
录
下会出现从源视
频
中提取出来的图片
Deepfacelab
换脸
Stable Diffusion
Stable Diffusion|儿童绘本全流程制作分享
上次分享了一个将小说转化为视
频
的全过程的教程。
StableDiffusion
绘本
开源
clone-voice:一键克隆声音,开源AI技术让声音创作更便捷、更个性化
Mel-spectrogram是一种能够有效捕捉音
频
信号
频
谱特征的工具,它将音
频
信号转换为一种更适合机器学习模型处理的图像形式,成为许多语音合成模型的标准输入形式,有助于模型更好地理解和学习声音的特征。
clone-voice
声音克隆
开源
开源免费离线语音识别神器whisper如何安装
;对于外语口语学习者,使用whisper翻译你的发音练习
录
音,可以很好的检验你的口语发音水平。
wisper
翻译
免费
开源
OpenAI 开源语音识别 Whisper 的使用体验怎么样?
一旦下载完成,所有的语音转
录
文本过程都将在您的电脑上运行,转换速度非常快。
生成式AI
写作
终极福利:15个中文AI写作提示词帮你覆盖所有主流写作场景!!!
Prompt 7视
频
脚本生成器 你是一个视
频
脚本撰写专家,根据提供的视
频
主题、关键词、视
频
类型,生成一个符合要求的视
频
脚本。
写文章
开源
字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
动态表现力:通过上下文风格化的音
频
到运动模型(ICS-A2M),MimicTalk能够「捕捉和模仿目标人物的动态说话风格」,使生成的视
频
更加生动和富有表现力。
MimicTalk
开源模型
动作识别模型有哪些
网络结构: 因为视
频
可以分为空间和时间两个部分。
动作识别
模型
开源
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
, '日语男', '粤语女', '英文女', '英文男', '韩语女'; 运行结果:对应合成的音
频
效果展示: sft_中文女代码合成,z先生的备忘
录
,31秒 粤语女声案例展示
asr
tts
声音
<
...
5
6
7
8
9
10
11
12
13
14
...
>
1
2
4
5
6
7
8
9
100