文章列表-AI魔法学院

文章列表

检索增强生成(RAG)有什么好的优化方案

首先，根据query判断是否需要检索。

RAG 检索增强生成

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

大模型RAG检索增强问答如何评估：噪声、拒答、反事实、信息整合四大能力评测任务探索

检索增强生成（RAG）是减轻大型语言模型（LLM）幻觉的一种有前途的方法。

大模型 RAG检索增强

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

大模型检索增强生成(RAG)高质量报告

今天分享一个来自同济大学Haofen Wang的关于检索增强生成的报告：《Retrieval-Augmented Generation (RAG): Paradigms, Technologies, and

RAG 大模型检索

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

LLM应用架构之检索增强（RAG）的缘起与架构介绍

如图，引入一个检索过程，将领域知识通过相关性检索，将相关信息检索出来，基于它们来构造prompt，最终传给LLM，让其在此之上总结推理。

【AI代理】扣子，开始探索多代理模式

代理模式不仅可以拓展大模型的功能（比如给大模型加上网页搜索，加入知识库等），还可以规避大模型的弱点（比如需求是一段代码，但是大模型回复的内容不单单包含代码，还有一些解释语句）。

多代理模式大模型

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

开发者和研究人员还可通过 GitHub 和 Hugging Face 平台获取工具并探索其潜力。

ClearerVoice-Studio 语音

忘掉 RAG，未来是 RAG-Fusion！搜索的下一个前沿：检索增强生成遇上倒数排名融合和生成查询

可以诚实地说，最近出现的检索增强生成（RAG）技术是最具颠覆性的。

RAG-Fusion 检索增强

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字，但是你需要用多个工具，而且效果不理想！

大模型开源模型语音

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

<123 4 5 6 7 8 9 10 ...>

Ai助理

Hello 👏🏻

我是 Ai助理，关于ai的问题你可以问我