视频魔法-AI魔法学院

视频魔法

4K star！录屏好帮手，超酷的实时按键显示工具

Keyviz是一款免费开源的跨平台实时键鼠输入可视化软件，能显示按键和鼠标操作，支持自定义样式和过滤特定按键，但2.0版本尚在alpha阶段，存在点击飘逸、配置不生效等问题，整体显示效果优秀，适合录制教程或演示时使用。项目GitHub链接为https://github.com/mulaRahul/keyviz，已有4K Star。

Keyviz 录频 2024-08-01

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

阿里巴巴通义实验室XR团队在2024中国生成式AI大会上展示了人物视频生成新范式，包括人物动作、换装、替身、唱演四大框架，已应用于通义千问APP。这些框架分别通过Animate Anyone、Outfit Anyone、Motionshop和Emote Portrait Alive技术，实现了从单张图到复杂视频内容的生成，展现了行业领先地位和丰富的应用潜力。

通义文生视频 2024-07-29

阿里出品自动化视频剪辑工具FunClip！

FunClip是阿里达摩院开源的本地部署视频剪辑工具，依托FunASR模型实现语音自动识别，支持热词定制、说话人识别、视频裁剪与多段剪辑，自动生成SRT字幕，提供Gradio交互界面和命令行操作，简化视频剪辑流程。一键启动包避免复杂环境配置，适用于Windows10/11 64位系统，需8G以上英伟达显卡。

FunClip 视频阿里 2024-07-26

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

文章概述：文章介绍了一个名为EMO的AI视频项目，该项目来自阿里通义实验室，允许用户通过上传人物正面大头照和选择音频片段，生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎，用户可以通过“全民舞台”功能体验。EMO采用弱控制设计，不强制建模整个面部，而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示，技术开源前需解决安全问题，并透露未来计划将EMO扩展到半身、全身，并可能引入新架构。同时，EMO背后团队专注于数字人研究，通过奶牛猫跳舞等动物主题激发用户兴趣，强调高质量AIGC内容的重要性。最后，文章推荐了EMO的一个私房玩法，即使用自己不同年龄段的照片进行合唱。

音频阿里 2024-07-23

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

本文介绍了一个基于LiveKit WebRTC的代理框架，用于构建实时、可编程的服务器端参与者，能够处理或生成音频、视频和数据流。该框架包括多种插件，如语音转文本（STT）和文本转语音（TTS）等，与LiveKit服务器无缝集成，无需额外排队基础设施。当前处于开发者预览模式，API可能变动。代理通过pip安装，并可通过CLI接口运行，支持加入特定的聊天室。此外，提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例，并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。

voice agent 开源音视频 2024-07-22

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频，实现了口型同步和人物自然动作。用户可通过通义千问免费体验，但当前版本限制多，如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高，但EMO的定制化有限，主要考虑因素包括视频质量、风控、版权和算力消耗。目前，EMO更多作为尝鲜产品，未来需改进才能应用于更广泛场景。

EMO 阿里全民演唱 2024-07-17

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

文章介绍了阿里语音团队最新开源的FunAudioLLM项目，旨在提升人类与大型语言模型的自然语音交互体验。项目包含SenseVoice和CosyVoice两个核心模型：SenseVoice负责语音识别和音频处理，支持多语言识别、低延迟、高性能及情感识别；CosyVoice则专注于语音生成和控制，支持多语言、零样本学习、情感共鸣及语音克隆等功能。文章还详细阐述了这两个模型的特点、应用场景，并提供了在

asr tts 声音 2024-07-11

国产视频制作之光-可灵：提示词大全整理

国产视频制作正蓬勃发展，而可灵无疑是其中的闪耀之光！我们为您精心整理了一份提示词大全，堪称国产视频制作的宝藏秘籍。在这个大全里，您能找到各类丰富、实用且极具创意的提示词，无论您想要制作何种风格、何种主题的视频，它都能为您提供灵感指引。可灵的这份提示词大全，将助您在国产视频制作的道路上更加轻松顺畅，让您的创作之旅充满惊喜与可能！

可灵 kling 视频 2024-07-09

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS 文本转语音项目在github爆火出圈，引来大家极大的关注。短短2周左右的时间，在 GitHub 上已经斩获了23.5k的Star量。本文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

chattts tts 文生语音 2024-06-21

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

「可灵」全新国产视频生成大模型开始内测了。它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。主打一个务实，不开空头支票、发布即上线，可灵大模型已在快影APP中正式开启邀测。

可灵快手文生视频 2024-06-09

SD3 正式开源 Sora同源架构

本文介绍了stability_ai发布的最新模型Stablediffusion3，该模型与OpenAI的Sora在架构上相似，都采用了Diffusion Transformer方式。Stablediffusion3具有生成视频、3D内容的能力，模型参数量增加至8亿，提升了图像质量。同时，介绍了即将推出的SD3 Medium模型，具有照片级真实感、优秀的字体排印学表现、高效性能以及微调能力，适用于定制和创意工作。

SD3 绘画 2024-06-03

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是专为对话场景设计的语音生成模型，支持中英文，效果出色。它可集成于大型语言模型助手，提供自然流畅的交互体验。用户可简单提供文本获取语音文件。项目提供安装指南，包括下载源码、安装依赖、编写执行代码、自动下载模型及通过webui运行等步骤。用户可通过界面添加笑声和停顿，提升语音效果。

ChatTTS 语音合成 2024-05-30

一键AI换脸！小红书和北大合作的InstantID

本文介绍了作者在comfyUI上安装InstantID插件的过程，包括安装节点、相关模型，以及创建基础工作流和出图步骤。InstantID是小红书、北大等团队合作开发的AI绘画和视频插件，具有强大的面部识别和分析能力。作者还表达了对中国AI技术未来发展的信心，并介绍了InstantID的工作原理和模型下载地址。

InstantID 文生图 2024-05-17

腾讯开源混元AI绘画大模型

腾讯开源了其AI绘画大模型——混元大模型，该模型具有中文原生和多轮对话的特点。测试结果显示，其性能在某些方面超越了其他模型，但硬件门槛较高。文章提供了详细的安装和使用指南，包括依赖关系、环境设置、模型下载以及推理方式等，以方便创作者使用和优化该模型。

腾讯混元文生图 2024-05-15

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

文生图混元腾讯 2024-05-14

<123 4 5 6 7 8 9 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1