文章列表-AI魔法学院

文章列表

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

DeepMedia公司的创始人Rijul Gupta表示：“我们基本上已经完美地实现了这项新技术，任何人都可以克隆任何人的声音，并通过5秒钟的音频参考，让它用不同的语言说话。”

AI

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

音乐可能是最具挑战性的音频类型，因为它由局部和长程模式组成，从一系列音符到具有多种乐器的全局音乐结构。

开源模型

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者的音频涵盖44种音色，确保音色丰富多样。

Baichuan-Omni 多模态大模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它在语音合成方面表现卓越，利用先进的深度学习技术，实现了高质量的语音输出，其发音精准、流畅自然，仿佛真人发声。

Westlake -Omni 语音

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

LangChain 的问题所在

LangChain 给人带来的是，令人沮丧的声音，脆弱的 Agent 工作流，技术债务增加。

大模型大语言模型

绝对是你的下载神器！AixDownloader可让你从任何网页下载你想要的内容，音乐、视频、图像、文件等！

它支持云音乐、听书等音频网站的智能提取和下载。

AixDownloader 下载

各个语种互相翻译：Meta推出NLLB-200 AI模型，可实现200种语言互译

今年 7 月，Facebook 发布了一个支持 51 种不同语言的语音识别模型。

翻译大模型

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1