文章列表-AI魔法学院

文章列表

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

对于音频对齐，作者收集了开源和内部的数据集，用于自动语音识别（ASR）和音频问答（AQA）。

Baichuan-Omni 多模态大模型

最强开源数字人对口型系统介绍

大家好，今天给大家介绍的是开源“最强”的数字人克隆方法 Easy-Wav2Lip: 仓库地址： https://github.com/anothermartz/Easy-Wav2Lip

数字人开源模型

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

然而，音频生成领域的进展却相对滞后。

开源模型

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

AI音乐热潮下，“神曲工作室”率先失业

她觉得，AI音乐可能会对抖音等平台上批量产出的歌曲产生较大影响，甚至不排除视频平台自主引入AI作曲机制，影响由第三方负责的“神曲”创作的生存空间。

音乐音频

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

动态表现力：通过上下文风格化的音频到运动模型（ICS-A2M），MimicTalk能够「捕捉和模仿目标人物的动态说话风格」，使生成的视频更加生动和富有表现力。

MimicTalk 开源模型

绝对是你的下载神器！AixDownloader可让你从任何网页下载你想要的内容，音乐、视频、图像、文件等！

看到网上有超赞的视频、音乐或图片，却无法轻松地保存到自己的电脑或手机上？

AixDownloader 下载

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

15种ChatGPT高频用法

本文列出了15个可以高频使用chatgpt以及其他大模型的场景，希望对您会有启发

大模型效率

中国大模型融资暗战：罗曼蒂克的快速消亡

多位接近闫俊杰的人士表示，“闫俊杰是典型的技术宅，说话声音小，可能并不擅长对外”，所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。

大模型暗战

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1