文章列表-AI魔法学院

文章列表

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

关于AI声音生成的一切（语音+音乐+嘴型）

2D/3D/视频生成最近都有很多值得关注的工具，但是要输出完整的AIGC作品，肯定少不了声音。

声音

动作识别模型有哪些

网络结构: 因为视频可以分为空间和时间两个部分。

动作识别模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

facebookresearch/audiocraft[1] Stars: 16.6k License: MIT AudioCraft 是一个用于音频生成的

AudioCraft 音频

阿里Outfit Anyone实现真人百变换装

之前我分享了阿里通义千问APP推出的 "全民舞王" ，只要一张照片就能生成一段舞蹈视频这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种其背后就是用的 Animate Anyone 算法

Outfit Anyone 阿里

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

上传一段视频，AI 自动识别视频中的运动主体人物，并一键替换成有趣的 3D 角色模型，生成与众不同的 AI 视频。

阿里大模型

LangChain - RAG：线上系统多文档要频繁更新，每次都要重新花钱做一次 embedding，老板不批预算，批我...

做为大模型落地的两大方向之一，RAG 有个很大的坑等着我们，设想一下，需要定时更新一匹 PDF 文件到 RAG chatbot 里面去，总量不算多也不算少大约 15,000～的样子，开发环境里面根本没考虑过重新 re-index、re-embedding 的事，事到临头要更新了才想起来要重新做 embedding 不仅耗时更要耗钱，结果老板不出所料的不批预算，批我解气... 怎么破？

大模型

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

AI能够制作视频吗？

AI资讯 AI新闻

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

「高质量视频生成」视觉质量：MimicTalk生成的3D头像在视觉质量上超越了以往的技术，能够生成「高度逼真的面部细节和表情」。

MimicTalk 开源模型

「长文」可能是目前最全的LangChain AI资源库之一

前言本文主要内容是一个LangChain资源库，里面罗列了大大小小很多个基于LangChain框架的优秀项目，包括低代码、服务、代理、模板等工具类，还有像知识管理、聊天机器人等开源项目，还包括像视频

工作

体验完阿里的EMO模型，我emo了

简单来说，EMO（Emote Portrait Alive）是一个AI肖像视频生成系统，能够通过输入单一的参考图像，生成具有一定表现力的面部标签和各种头部姿态。

EMO 文生图

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1