视频魔法-AI魔法学院

开源

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。它支持多种编程语言，包括Python、C++、Java等。

人脸识别开源项目 2023-12-07

视频

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

使用 Wunjo AI 解锁神经网络无与伦比的功能。无论您是钻研语音合成、制作 Deepfake 动画、通过文本提示绘制稳定扩散视频还是视频制作，Wunjo AI 都能满足您的需求。

AI语音克隆实时语音识别 2023-12-06

语音

国内厂商语音识别与Whisper评测：现状与概况对比

随着人工智能技术的飞速发展，语音识别已经成为了现代社会中一个重要的研究领域。语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。国内的科技企业在语音识别领域也在不断迭代和创新，其中不乏一些具有竞争力的语音识别技术，如讯飞、百度、阿里巴巴等，这些厂商的技术在一定程度上已经接近或达到了国际领先水平。同时，Whisper（飞思卡尔语音识别技术）作为一项国际上也备受关注的语音识别技术，在语音识别领域也有着广泛的应用。Whisper技术在噪声环境下依然能够准确识别并理解语音指令，因此在汽车、智能家居等领域有着广 ...

语音识别 Faster-Whisper 2023-12-04

在 WebUI 中使用 AnimateDiff 的一些问题和技巧

这两天晚上没事的时候就会尝试下AnimateDiff，发现这真的让视频生成上了一个大台阶，估计是到了AI视频爆发的前夜了。其实这两天也在轮流学习使用WebUI和ComfyUI，发现同等帧率设置下ComfyUI的生成速度要快很多而且占用资源少一些，但是不知道是不是心理原因总感觉ComfyUI的清晰度不如WebUI，所以相对来说WebUI玩的更多一些（其实主要还是因为简单，ComfyUI研究一晚上只造出了基础的生成和放大流程o(╥﹏╥)o），下面还是分享一些在使用WebUI方面的遇到的问题或小技巧

AnimateDiff SD 2023-12-04

语音

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。

语音识别 Faster-Whisper 2023-11-29

视频

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频。与其他AI公司不同，Stable Video Diffusion在开源领域提供了少数几个视频生成模型之一。

Video 视频创作 SD 2023-11-22

Roop参数说明，ROOP->StyleGAN演示！

视频 StyleGAN 2023-11-20

开源

开源本地化部署的「妙鸭相机」，真的要革了「海马体」们的命了？｜手把手教你搭建「妙鸭相机」

【新智元导读】EasyPhoto作为妙鸭相机平替，有着不输妙鸭相机的生成质量，还有更好的定制化空间和本地部署的优势。

训练 2023-11-15

语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。最终，作者以实际测试数据展示了不同优化方式的速度对比。同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper 2023-11-14

开源

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图

音视频 Flow Matching 2023-11-13

教程

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频 2023-11-03

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法

今天给大伙分享一下目前来看比较稳定的文本生视频的插件 AnimateDiff。之前虽然小视频生成比较火，不过出的视频都不太稳定，目前来看 AnimateDiff 是相对比较稳定的，而且能同时支持和其他插件一起使用。

动画 animate sd 2023-10-20

数字人

教你用StableDiffusion设计AI数字人

随着Diffusion（扩散算法）的异军突起，AIGC（AI Generate Content）让曾经在脑海里的想象快速地成为具体的画面，每个人拥有自己的数字分身还是只存在电影或者小说里的桥段吗？虚拟偶像AYAYI、虚拟品牌代言人“花西子”、美妆数字达人柳叶熙、新华社AI合成主播-新小浩…技术新潮下数字人层出不穷。但，普通人能有自己的数字分身吗？

文生图 2023-09-26

数字人

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。基本都是因为图片分辨率太高，或者音频格式不对。下面是解决方法：

SadTalke 2023-08-13

数字人

如何免费打造自己的数字人主播：StableDiffusion插件SadTalker打造本地数字人主播

本教程将介绍如何使用Stable Diffusion和Sadtalker结合起来，实现从文本到视频的生成。学会本教程之后，大家就可以在自己的电脑上免费用一张图片生成数字人口播视频

数字人 2023-07-22