文章列表-AI魔法学院

文章列表

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它在语音合成方面表现卓越，利用先进的深度学习技术，实现了高质量的语音输出，其发音精准、流畅自然，仿佛真人发声。

Westlake -Omni 语音

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

通过约70万小时的多语种数据训练，实现了接近人类水平的语音合成效果，目前已更新到1.4版本。

Fish Speech 本地搭建

Ollama 与 Dify：AI 应用开发的强强联合

介绍随着大型语言模型（LLM）的快速发展，它们为 AI 应用开发提供了强大的功能和灵活性。

Ollama Dify 大型语言模型

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音

AA大佬新作：ComfyUI整合包，打造极简解决方案

ComfyUI整合包的介绍： AA发布的ComfyUI整合包是一个预装了大量节点的版本，它不仅简化了安装过程，还提供了一个启动器，用于完成节点的更新和安装。

comfyui 文生图工作流程

混合专家模型 (MoE) 详解

这些研究的融合促进了在自然语言处理 (NLP) 领域对混合专家模型的探索。

MoE大模型

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

歪理大集合，谁也跑不了

一边发文一边很是写了一点“歪理邪说”，有读者说因为自定义的话语体系，逻辑抽象读起来费劲，所以先简单梳理下。

大模型

17K star！30秒偷走你的声音，开源声音克隆工具

现在的AI发展越来越快，生成一段语音不是难事，那如果生成的是你自己的声音？

OpenVoice 声音克隆开源

向量数据库失宠了？OpenAI 力捧检索增强生成（RAG）技术，对行业来说意味着什么？

这个想法是使用预先训练的语言模型 (LM) 来生成文本，但使用单独的检索系统来查找相关文档来调节语言模型。

检索增强生成大语音模型

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。

chattts tts 文生语音

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

核心模型二: 语音合成模型CosyVoice介绍 CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。

asr tts 声音

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1