文章列表-AI魔法学院

文章列表

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

Roop参数说明，ROOP->StyleGAN演示！

比如一件事情，两个人同时干，肯定比一个人干快。

视频 StyleGAN

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入，然后用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力，让模型对足够多的训练集做全局拟合（理解），在模型更好地还原细节的同时让模型出现智能涌现能力

sora openai 视频生成

在Win11上部署ChatGLM3详细步骤

评测显示，在44个中英文公开数据集测试中，到目前为止ChatGLM3在国内同尺寸模型中排名首位。

大模型 ChatGLM 智普

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

把这张由Stable Diffusion 生成的 AI 小姐姐照片，丢进EMO操作界面，我们得到了下面这段视频：，时长00:14 整体来说，视频的质量还是比较高的，不论是同步口型、人物眨眼、还是头部运动

EMO 阿里全民演唱

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

更灵活的应用场景：无论是多人会议记录中区分不同发言者，还是多声道音频编辑，它都能轻松胜任。

ClearerVoice-Studio 语音

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

可灵快手文生视频

whisper-live：OpenAI Whisper模型的近实时实现

它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

OpenAI Whisper 大模型

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

上图是生成海归游泳的视频，不同尺寸的视频里面海归都是正中间位置，不会出现主要目标被剪裁的情况。

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

同样，现场宣布，直接，开源。

sora 视频生成

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1