文章列表-AI魔法学院

文章列表

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

【万字长文】全球AI Agent大盘点，大语言模型创业一定要参考的60个AI智能体

通信（Communication）：AI 智能体可以使用不同的方法与其他智能体或人类进行通信，例如理解和响应自然语言、识别语音以及通过文本交换消息。

大语言模型

17K star！30秒偷走你的声音，开源声音克隆工具

然后，它可以生成听起来自然的语音，以多种语言模仿该语音，同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

OpenVoice 声音克隆开源

【大模型微调】 Llama 2 ：对话模型的全过程微调

该项工作的作者提出 Llama 2 模型：这是经过一系列预训练和微调的大语言模型 (LLM)，其参数规模从 7B 亿到 70B 不等。

大模型

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

（包括但不仅限于文生图、图生文、语音转文字、文字合成语音等），从而让LLM能驱动其他智能Agent，实现多模态能力。

提示词 prompt

Stability AI开年首个大模型：专写代码，支持18种编程语言，上下文100K，苹果笔记本离线就能跑

Stability AI开年第一个大模型来了！

Stability AI 大模型

OpenAI开源大模型调测工具Transformer Debugger：可以在训练大模型之前理解模型的运行情况并干预

· 为什么大语言模型难以调测和解释 · Transformer

大模型调试工具

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。

chattts tts 文生语音

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

大模型

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

首先，收集全面的普通话数据集非常困难；其次，普通话的复杂口型动作使得模型训练比英语更具挑战性。

JoyHallo 数字人开源模型

百模大战，谁是大模型的裁判员？

定义了树-邻接语法（TAG）的阿拉文德·乔西（Aravind Joshi）教授，曾提出过“如果没有基准来评估模型，就像不造望远镜的天文学家想看星星。”

大模型

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1