文章列表-AI魔法学院

文章列表

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

惊艳推荐！8款好用又免费的文本转语音TTS工具

，可将文本转换为逼真的语音。

TTS Maker 语音

无需编码，轻松提升图像品质：探索ComfyUI的图像增强功能

在这篇文章中，我们将研究ComfyUI迷人的功能和能力及其广泛的兼容性、优化方法和安装说明。

文生图

StableDiffusion

StableDiffusion模型推荐系列（全能型）

今天，我们要聊一聊AI绘画领域里的一个超有趣的话题：为什么Midjourney能用一个5.2模型轻松驾驭各种风格，而Stable Diffusion却需要我们切换无数个模型呢？

stablediffusion sd 文生图

Python状态机：优雅处理复杂业务逻辑的利器

在软件开发中，我们经常需要处理对象在不同状态之间的转换。

Python状态机设计模式

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

想将一份文档图片转换成 Markdown 格式？

OCR 手写文字识别

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

图2：PDF提取方法的具体流程，中间会有各种适配选择安装所需的库在我们开始使用PDF文本提取之前，应该安装必要的库。

大语言模型 python

【分享】SDXL模型最佳拍档！COMFY UI上手指南

COMFYUI是一款易于上手的工作流设计工具，具有以下特点：基于工作流节点设计，可视化工作流搭建，快速切换工作流，对显存占用小，速度快，支持多种插件，如ADetailer、Controlnet

大模型

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

实时语音克隆

作者提供了安装和配置的步骤，并推荐了其他语音克隆解决方案。

语音克隆

爆火的“哄哄模拟器”，它是如何炼成的？Prompt泄漏了

一夜大火的对话式游戏应用“哄哄模拟器”，让我们看到了AI应用的潜力，24小时获得用户70万，也看到了成长烦恼的“账单”，消耗一亿token，不得不弃OpenAI替换为国内月之暗面（Moonshot）

提示词 prompt

4种通过LLM进行文本知识图谱的构建方法对比介绍

我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。

知识图谱大模型

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1