文章列表-AI魔法学院

文章列表

AI音乐热潮下，“神曲工作室”率先失业

都说今年五一档最难抢票，但这个票，许多乐迷指的是演唱会门票：凤凰传奇、邓紫棋、陈奕迅……越是声线特殊、现场力爆棚、感染力强，越是一票难求…… 与此同时，很多音乐人却高兴不起来，suno、天工、ACE

音乐音频

最强开源大模型Llama 3，在扎克伯格设想中其实是这样的

视频中，扎克伯格不仅聊到了Llama 3模型，还聊到了AI技术创新、元宇宙、开源问题等，可谓干货十足。

Llama 3 大语言模型

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

这个让数字人声音完美匹配画面还匹配表情和情绪的对口型项目已经正式在即梦上线了。

Loopy 视频

马斯克怒告OpenAI案解密：Ilya看到了什么？125万亿参数Q*细节曝光，53页PDF全网疯转

刚刚，Sam Altman罕见地发声了，连发两条推文。

OpenAI 大模型

Prompt | 抖音视频脚本

复制脚本并访问 https://beta.elevenlabs.io/speech-synthesis 以生成文本转语音。

prompt

划重点！全网最全AI数字人工具合集！

· 选择语音：输入文字或录制语音，让数字人“说出”你想让他/她表达的内容。

AI 数字人

解读wav2lip：探究语音驱动唇部动作的技术原理！

具体来说，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。

wav2lip 语音

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

用so-vits-svc-4.1进行音色转换的极简教程！

其实歌声转换不仅仅适用于歌声，普通讲话也可以，只是歌唱的音调基本能覆盖到低、中、高全域声音类型，而正常说话可能无法做到全域覆盖，但是如果在录制声音的时候能够做到覆盖多种音调类型，也可以实现声音转换。

so-vits-svc 音色转换教程

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

RAG 2.0来了，它能成为生产落地的福音吗？

RAG 2.0方法就是克服这样的局部优化办法，通过将预训练、微调和对齐所有组件形成一个统一系统，通过反向传播同时优化语言模型和检索器，以最大化系统性能。

RAG 大模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1