文章列表-AI魔法学院

文章列表

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

如TokenPose等工作，使用CNN进行特征提取，并使用transformer作为后处理模块来建模多个关键点之间的关系。

ViTPose+Transformer 身体姿态

Agent：OpenAI的下一步，亚马逊云科技站在第5层

Agent成为最受重视的方向。

开源模型

AI写作：如何让AI帮你写出10万+标题？

自媒体写作中，标题是重中之重。

AI写作提示词

AI音乐热潮下，“神曲工作室”率先失业

短视频的算法“神曲”将最先受冲击尽管并不认为AI作曲能替代所有的人类音乐创作，但梁熠认为，至少对于现在平台上有一些粗制滥造的歌曲，肯定会在AI的挤压下失去生存空间。

音乐音频

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

CTC 强制对齐（CTC forced alignment）通过 CTC 强制对齐技术，创建精确的单词到音频标记的映射。

OuteTTS-0.1-350M 音频

职场及工作中常用的方法论总结

做事方法论　　5W2H 　　我们在做一件事时，经常需要和老板或者合作方去讲为什么要做这件事，准备怎么做，以求获得来自老板和合作伙伴的认可及支持。

工作

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

在这一系列的博客文章/视频中，我将介绍先进的RAG技术，旨在优化RAG工作流程，并解决原始RAG系统中的挑战。

RAG 检索

懒人福音！用AI生成会议纪要，让你的工作更高效！

通义听悟主要聚焦于音视频内容，提供多种功能，包括实时语音转写、音视频文件转写、实时翻译、内容标记和智能全文概要等。

会议纪要 AI工具

字节跳动最强AI工具 “豆包” ，近1000款应用！一句话自动生成图文，堪比ChatGPT？

前面分享了小悟空、即创等字节系列AI创作平台，今天又给大家分享另一个字节的创作平台叫做豆包，体验下来，功能在目前国内算是第一梯队，实用性很强。

AI工具文生图

将文本转化为3D动画：DeepMotion推出MotionGPT，开启动画新时代！

这是一款基于生成式AI的工具，可以将文本提示无缝转换为复杂的3D动画，简化了动画创作过程，同时也超越了物理障碍，使得更多不同类型的创作者和行业可以使用3D动画。

3D 动作捕捉

再见了ComfyUI，WebUI也有了工作流

WebUI以界面美观、功能齐全闻名，而ComfyUI则以效率高、工作流便捷著称。

ComfyUI WebUI 文生图

马上掌握这18个Prompts，让你的工作效率瞬间暴涨10倍！

你是否感觉每天工作很忙，但总是觉得效率低下？

开源模型

解读wav2lip：探究语音驱动唇部动作的技术原理！

生成器网络负责生成逼真的嘴唇动作，而判别器网络则负责评估生成的嘴唇动作的一致性和真实性，通过不断的训练和反馈，生成器网络逐渐学习到如何根据音频特征生成与之匹配的嘴唇动作。

wav2lip 语音

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1