文章列表-AI魔法学院

文章列表

用so-vits-svc-4.1进行音色转换的极简教程

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

声音 sovits

Stable Diffusion

【Stable Diffusion】高效率视频转AI动画！EbSynth插件全流程操作

最近小朋友开始学习跑酷，这段动画是我用他上课时候的一段练习视频制作的。

AI编程 EbSynth 动画

免费的文本生成视频解决方案：AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI

AnimateDiff 是一个基于 Stable Diffusion 模型的文本生成视频插件，它通过控制模块影响图像生成过程，使得生成的图像序列具有与训练视频剪辑相似的特征。

视频生成文生视频

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

这意味着它能够同时处理多个音频片段，大幅缩短了从语音到文本的转换时间。

Whisper 语音识别

用so-vits-svc-4.1进行音色转换的极简教程！

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

so-vits-svc 音色转换教程

RAG 2.0来了，它能成为生产落地的福音吗？

RAG作为当前最流行、相对成熟的的LLM应用架构，受到了开发者的广泛关注，相关围绕RAG优化的技术层出不穷，但依旧难逃达不到生产应用要求的尴尬。

RAG 大模型

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

asr tts 声音

OpenAI视频模型Sora的推理生成成本多高？

由于 Diffusion 模型训练 text to video 需要高质量的标注视频，因此我们可以估计 Sora 训练的视频量级为 1亿分钟左右。

Sora 推理算力

开源免费离线语音识别神器whisper如何安装

拿我自己录的一段音频举例，5min长度400多字，使用whisper的medium模式识别，只错了两个英文单词，那两个英文单词还是因为发音问题识别错误。

wisper 翻译免费

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

中国首个长时长、高一致性、高动态性视频大模型，Vidu 登场

今日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——「Vidu」。

Vidu 大模型视频

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

Stable Diffusion

读取大脑重建高清视频，Stable Diffusion还能这么用

但以往的研究都主要聚焦在重建静态图像，而以高清视频形式来展现的工作还是较为有限。

stablediffusion

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

Suno AI全新音乐生成模型Suno V3来临，掀起音乐界"ChatGPT时刻"，人人皆可成为作曲家、歌手，瞬间超越自我，打造独一无二音乐专辑就在此刻！

suno 歌曲音乐

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥！

EmotiVoice 语音库

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1