文章列表-AI魔法学院

文章列表

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

ViTPose+进一步拓展到多种不同类型的身体姿态估计任务，涵盖动物、人体以及典型的身体骨骼、手、脚、脸部等关键点类型，在不增加推理阶段模型复杂度和计算复杂度的情况下，实现了多个数据集上的最佳性能。

ViTPose+Transformer 身体姿态

AI 换脸——Deepfacelab 下载与安装，新手教程

AI 换脸越来越火，换脸的视频到处都是，那种还是那种的都有。

Deepfacelab 换脸

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

今天给大家同时展示5款(Fish、F5、GPT、CosyVoice、MaskGCT)爆火的语音克隆-文本合成的效果展示。

语音克隆开源模型

动作识别模型有哪些

two-stream方法很大的一个弊端就是不能对长时间的视频进行建模，只能对连续的几帧视频提取temporal context。

动作识别模型

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

这步操作可能会跟大家想象的不太一样。

剪映声音克隆

2023年人工智能行业总结

年底谷歌发布了多模态大模型Gemini，可以理解文字、图片、代码和音视频。

人工智能 AGI 思考总结

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

另外，数字人短视频和直播的搭建页面和使用方法几乎是相同的，只需要选择数字人和AI语音，选择场景和贴图，拖拖拽拽布局好，点击生成就能出片，减少额外的学习成本。

数字人数字分身

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

本地环境搭建 python = 3.10 pip = 22.3.1 pytorch = 1.3.1 不同系统装python环境参考以下blog 一网成擒全端涵盖，在不同架构(Intel x86

音乐

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

短视频内容分类解析短视频语义进行场景分类 video-detecction 视频检测对视频信息进行内容解析

开源

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

3 个令人惊艳的 GitHub 开源项目，诞生了！

各种 AI 工具层出不穷，无数网友惊叹技术进步之快。

开源模型

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

历经一年深度内测，“和弦派”已吸引近10万音乐人及音乐爱好者参与。

和弦派 DeepMusic 音乐创作

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

<...9 10 11 121314 15 16 17 18 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1