文章列表-AI魔法学院

文章列表

一款构建AI数字人项目开源了！自动实现音视频同步！

1、Video-Tetalking Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。

AI数字人音视频同步

惊艳推荐！8款好用又免费的文本转语音TTS工具

具有神经网络真人发音、支持在线体验和本地部署（通过Docker等方式）。

TTS Maker 语音

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

在实现大语言模型的定制化应用中，的确有几种常用的方式：Prompt Engineering（提示工程）、Fine-tuning（微调）和Pre-training（预训练）。

大模型

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

比如，问问广州今天的天气如何，Flowith 就会进行实时搜索。

ChatGPT 聊天

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

登录进入工作台后，使用语言识别功能，点击【新建项目】-【语音转写】。

生成式AI

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

这一创新版本摒弃了传统的人物模型训练过程，能够直接生成 zero-shot 目标人像，引领 AI 人像生成进入了无需训练的单阶段时代。

FaceChain FACT 文生图

RAGFlow：开源的RAG引擎，专注于深入的文档理解，支持处理各种复杂格式的非结构化数据

该项目提供了一个简化的RAG工作流，适用于各种规模的企业，通过结合使用大型语言模型（LLM）来提供基于严谨引用的真实问答能力。

RAGFlow RAG 开源

Ollama最新更新v0.1.33，实现了多并发可同时与多个模型聊天对话！

上周，Ollama进行了v0.1.33版本更新，为本地部署的开源大型语言模型（LLMs）带来了重大改进。

ollama 语言大模型聊天

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

也是在那一天，N多AI初创公司宣布进入死亡倒计时。

剪映声音克隆

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

支持的模型 · · AudioCraft使用 · · AudioCraft开源地址 · AudioCraft简介产生高保真音频任何类型的音频都需要对不同尺度的复杂信号和模式进行建模

开源模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

同时，作者还利用自动语音识别（ASR）数据来训练音频语言模型。

Baichuan-Omni 多模态大模型

SD入门教程六：ControlNet基础入门

从上图可以看到，我们在使用 ControlNet 的时候，会先将 text prompt 和图片一起输入到 ControlNet 的模型中，然后 ControlNet 的模型会生成一张 latent

ControlNet 文生图

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

它在支持5种语言的同时提供高速处理。

asr tts 声音

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

下面进入今天的主题~ 需要特别注意：本文只是技术分享，在使用对应模型进行语音合成时，需要严格遵照对应项目的要求和法律法规！！

语音克隆开源模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

据项目介绍，Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集，输入格式严格遵循 llama-2-chat 格式，兼容适配所有针对原版 llama

开源模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1