文章列表-AI魔法学院

文章列表

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

「闪剪智播」在使用上有一个点与其他三款产品都不同，就是它的数字人只能使用录音文件驱动，虽然它本身也有一个插件是文本转AI声音，而且声音库还很丰富，但合成的音频却不能用于驱动数字人。

数字人数字分身

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

Mikey：“虽然我学的是物理，但音乐始终是我的激情所在，我录过一张EP。

suno 音乐

懒人福音！用AI生成会议纪要，让你的工作更高效！

会议音频一般有几种，手机或录音笔的音频，腾讯会议的音频等，那如何把音频转成文本呢？

会议纪要 AI工具

用so-vits-svc-4.1进行音色转换的极简教程！

其实歌声转换不仅仅适用于歌声，普通讲话也可以，只是歌唱的音调基本能覆盖到低、中、高全域声音类型，而正常说话可能无法做到全域覆盖，但是如果在录制声音的时候能够做到覆盖多种音调类型，也可以实现声音转换。

so-vits-svc 音色转换教程

6个AI音乐软件推荐，让你学会人工智能AI作曲

在当下的应用中，AI已经可以影响音乐制作过程的各个方面，包括音乐生成、音频掌握等。

训练音乐

AI声音克隆 | 最全最简教程（权威版）

请看自己开发一个免费的文本转语音小工具如果你觉得功能少，可以使用国内的魔音工坊，但是要收费的哈但这些都不能指定声音转换，所以这里使用声音克隆，来将指定人声训练成模型，然后文字转音频。

声音克隆教程

AI 换脸——Deepfacelab 下载与安装，新手教程

程序处理完成之后，在 ==workspace\data_src== 目录下会出现从源视频中提取出来的图片

Deepfacelab 换脸

Stable Diffusion

Stable Diffusion｜儿童绘本全流程制作分享

上次分享了一个将小说转化为视频的全过程的教程。

StableDiffusion 绘本

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

Mel-spectrogram是一种能够有效捕捉音频信号频谱特征的工具，它将音频信号转换为一种更适合机器学习模型处理的图像形式，成为许多语音合成模型的标准输入形式，有助于模型更好地理解和学习声音的特征。

clone-voice 声音克隆

开源免费离线语音识别神器whisper如何安装

；对于外语口语学习者，使用whisper翻译你的发音练习录音，可以很好的检验你的口语发音水平。

wisper 翻译免费

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

一旦下载完成，所有的语音转录文本过程都将在您的电脑上运行，转换速度非常快。　　

生成式AI

终极福利：15个中文AI写作提示词帮你覆盖所有主流写作场景！！！

Prompt 7视频脚本生成器你是一个视频脚本撰写专家，根据提供的视频主题、关键词、视频类型，生成一个符合要求的视频脚本。

写文章

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

动态表现力：通过上下文风格化的音频到运动模型（ICS-A2M），MimicTalk能够「捕捉和模仿目标人物的动态说话风格」，使生成的视频更加生动和富有表现力。

MimicTalk 开源模型

动作识别模型有哪些

网络结构: 因为视频可以分为空间和时间两个部分。

动作识别模型

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

, '日语男', '粤语女', '英文女', '英文男', '韩语女'; 运行结果:对应合成的音频效果展示: sft_中文女代码合成,z先生的备忘录,31秒粤语女声案例展示

asr tts 声音

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1