文章列表-AI魔法学院

文章列表

2023年LLM如何入门？请看这篇综述！

补充一点有趣的，当参数规模超过一定水平时，这些扩大的语言模型不仅可以实现显著的性能提升，还表现出一些特殊的能力，比如上下文学习能力等等，这是小规模语言模型（例如BERT）所没有的，这种现象被称为涌现Emergence

大模型

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

深入探秘：百川7B大模型的训练代码解析，揭秘巨无霸语言模型背后的奥秘

（二、软件和部署) 本期开始，为大家讲下这些大模型是怎么训练生成的首先，为了确保本系列的讲解流畅，我将直接深入讲解大型语言模型的代码。

大模型

6个最佳开源TTS引擎

TTS引擎用于实现文本到语音的转换。

TTS引擎开源模型

17K star！30秒偷走你的声音，开源声音克隆工具

然后，它可以生成听起来自然的语音，以多种语言模仿该语音，同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

OpenVoice 声音克隆开源

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

以下为本站SD画图软件生成图片赏析： StableDiffusion文生图软件的核心优势在于其能够利用深度学习技术，通过自然语言的描述生成高质量的图像。

SD 视频课程 AI绘画

Coze多智能体（Multi-Agents）模式体验！

以一个具体的实例作为起点，我计划创建一个“虚拟互联网软件公司”，为开源项目的快速开发提供全面的服务支持。

Coze 多智能体

实战:如何用AI Agent实现ChatGPT流程化写作，产能翻倍

ChatGPT 虽然是个相当厉害的 AI 聊天机器人，能回答你各式各样的问题，并根据你的需求生成内容，但它其实更像一个等待指令的工具，而非一个能自主思考的助手。

Agent 写作

Prompt全攻略(一):ChatGPT时代,什么是Prompt?

随着GPT-3等预训练语言模型的进步,ChatGPT这类交互式人工智能chatbot应运而生。

prompt

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

尽管配备了八个专家，在实际运算时每个Token仅需两个专家参与。

开源模型 Mixtral 8x7B

SD3 正式开源 Sora同源架构

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD3 绘画

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

Prompt及AI提问实践

· 模型本身的实现方式。

Prompt 大模型提问

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

Mel-spectrogram是一种能够有效捕捉音频信号频谱特征的工具，它将音频信号转换为一种更适合机器学习模型处理的图像形式，成为许多语音合成模型的标准输入形式，有助于模型更好地理解和学习声音的特征。

clone-voice 声音克隆

万字长文，大语言模型如何宣告心理学的死亡？

行为主义的幽灵延续人类心理学的研究方法心理学家在谈论一个人的人格或者一个人的心理时，其实是在深入了解他的思维模式、情感反应和行为方式。

大语音模型

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1