文章列表-AI魔法学院

文章列表

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

懒人福音！用AI生成会议纪要，让你的工作更高效！

**效率提升**：AI可以实时转录会议内容，并在会议结束后迅速生成纪要，大幅提高工作效率。

会议纪要 AI工具

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

audio2photoreal的核心技术是基于深度学习的图像生成模型，它可以从音频中提取语音特征，然后用这些特征来控制人脸和身体的运动。

audio2photoreal 开源工具

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

.01 概述在日常生活和工作中，你是否常因嘈杂的环境、重叠的对话或音视频信号的混杂而感到沟通困难？

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

一文读懂GPT-1：生成式预训练如何提升语言理解

为了深入探索大语言模型的发展历程，我们精心挑选了一系列经典论文进行分享，希望能与大家共同学习和理解大语言模型背后的技术。

GPT

RAG——使用检索增强生成构建特定行业的大型语言模型

下面是检索增强技术论文的摘要部分，从中我们可以看到，检索增强技术是用于知识密集型nlp任务处理文本生成时，先通过信息检索技术来增强信息输入来使生成的内容更具体、更多样化和更真实的技术。

大模型

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

十大开源语音识别项目

)是 Meta 开源的一款全新的 AI 语言模型，可以识别 4000 多种口头语言并生成 1100 多种语音（文本到语音），可谓是“语音巴别塔”。

语音识别开源项目

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

CodeGeeX：Tab一下，代码自动生成

为此，我们研发了一款新型的大规模多语言代码生成模型 CodeGeeX。

大模型

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

音频编码器由640M个参数组成。

大模型语音

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1