文章列表-AI魔法学院

文章列表

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

在这一系列的博客文章/视频中，我将介绍先进的RAG技术，旨在优化RAG工作流程，并解决原始RAG系统中的挑战。

RAG 检索

Stable Diffusion

stable diffusion最全18种controlnet模型，详细教程讲解。

目前AIgc领域正在持续关注，等到年底的时候做一个最全面的视频和文字讲解，现在还是在等等，目前AI领域热度确实是在持续降温，但是呢，深入了解AI的人都知道，AI的发展不是想人一样需要很长时间的积累，有时候可能就是一个算法的突破

Stable Diffusion 文生图 controlnet

Roop升级版FaceFusion换脸AI技术使用以及部署教程

SKIP AUDIO（跳过音频）: 对于视频处理，此标志可能用于决定是否处理或忽略视频的音轨。

FaceFusion 教程

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

盘点字节跳动最新的AI应用

海外名称为Cici）、话炉（AI虚拟陪伴产品，海外名称为BageBel）、PicPic（AI图片产品）、扣子（Agent应用开发平台），2️⃣ 来自剪映的Dreamina（AI图片和视频生成平台

字节 AI工具

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

3月，国内外模型公司动作频频。

零一万物 YI 李开复

whisper-live：OpenAI Whisper模型的近实时实现

它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

OpenAI Whisper 大模型

被高估的Pika，被低估的多模态AI

视频中，用户只要输入“马斯克穿着太空服，3D 动画”，就生成了下面这段视频。

大模型多模态

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

同时升级计算机视觉工具包 CVNets 为 CoreNet！

OpenELM 大模型

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

大模型语音

大模型落地“诸神之战”，场景玩家先杀出重围了

在短视频时代，通过线上种草视频/图文为线下门店引流，已经是重要营销手段之一。

大模型文生图

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

据介绍，与目前市面上的主流视频生成算法不同，EMO的原理是用音频驱动图片的人像，使其做出与音频内容高度匹配的口型和表情。

EMO 阿里全民演唱

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1