文章列表-AI魔法学院

文章列表

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法

今天给大伙分享一下目前来看比较稳定的文本生视频的插件 AnimateDiff。

动画 animate sd

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法！

今天给大伙分享一下目前来看比较稳定的文本生视频的插件 AnimateDiff。

文本生成视频 AnimateDiff

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。

asr tts 声音

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

哪款语音克隆模型最好，等你来评价~本文案例效果仅供参考！

语音克隆开源模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

一文看懂RAG：大语言模型落地应用的未来

其中一些主要限制包括：不适应多模态数据：基础RAG主要关注文本数据的检索和生成，对于多模态数据（例如图像、音频）的处理能力有限。

rag 检索增强

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

Fish Speech 本地搭建

万字长文-大语言模型指令调优综述

在这种方法中，通过使用模板将文本标签对转换为(指令、输出)对。

大语言模型

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

AI Agent的数字化革命：超越文本，走向自主决策与交互

AI Agent和ChatGPT、Claude等LLM（大语言模型）有什么区别呢？

生成式AI

姜子牙大模型系列 | 为知识检索而生，Ziya-Reader开源，多个长文本中文任务第一

另外，大模型本身有着幻觉问题，检索增强也是最直接的解决方案。

大模型 Ziya

4种通过LLM进行文本知识图谱的构建方法对比介绍

我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。

知识图谱大模型

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

自 ChatGPT 发布以来，大模型的强大让人们看见了通用人工智能的曙光，各个科技大厂也纷纷开源自家的大语言模型。

大模型

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

用户可以通过简单的文本提示进行创作，生成多种音乐风格的高质量音乐和语音。。

suno 音乐

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1