文章列表-AI魔法学院

文章列表

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

01 前言近日，香港中文大学（深圳）联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。

MaskGCT 声音克隆

EverydayWechat：让微信变得更强大，引领每日生活新体验

EverydayWechat是一个强大的Python库，旨在为微信用户提供更多便利和功能扩展。它通过与微信接口的交互，实现了一系列功能，包括自动回复、定时发送消息、天气查询、关键词提醒等。通过EverydayWechat，用户可以将微信打造成一个更加智能和个性化的工具。

EverydayWechat

Stability AI开源上新：3D生成引入视频扩散模型

将视频扩散模型用于3D生成引入潜在视频扩散模型，SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性。

sv3d 建模

ChatGLM3在线搜索功能升级

在前面的图文当ChatGLM3能用搜索引擎时中，我们让ChatGLM3在搜索引擎上进行的简单的搜索，但是仅仅只能搜索一些简单的内容，比如，时间。

ChatGLM3 搜索

超越RAG：揭秘IAG框架如何引领推理问答系统的创新之路

该框架通过在输入问题后添加一个诱导器来引导模型预测答案，从而增强系统的事实准确性。

IAG框架大语言模型

字节跳动推出MagicVideo-V2：引领AI视频生成新时代。

你是否曾想过，仅凭一段文字就能生成一段高清、流畅的视频？现在，这个梦想已经成为现实！字节跳动公司最新推出的MagicVideo-V2，正是一款能够将你的文字描述转化为精美视频的AI视频生成模型。

MagicVideo-V2 视频生成

一文看懂RAG：大语言模型落地应用的未来

这使得它能够在生成回答时引用广泛的信息源。

rag 检索增强

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

0.前言语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。

开源模型

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型，该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。

coqui-ai TTS 语音

改进召回（Retrieval）和引入重排（Reranking）提升RAG架构下的LLM应用效果

为了避免因为大文档chunk化带来的内容分裂，在建库阶段也可做了一定优化，利用summary index对大文档进行索引。

大模型

【一步一步引导】从零详细地梳理一个完整的 LLM 训练流程

对于一些多语言模型来讲，要想穷举所有语言中的常用词（穷举不全会造成 OOV），既费人力又费词表大小，为此，人们引入另一种方法：BPE。

大模型训练

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

本文目录 5款爆火开源TTS语音克隆项目 GPT-SoVITS模型介绍 MaskGCT模型介绍 F5-TTS语音模型介绍 FishSpeech1.4

语音克隆开源模型

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

震撼科技界：清华大学与智谱AI联手，引领中文长文智能写作新纪元！

04 LongWriter模型——引领人工智能撰写长文本的新纪元在人工智能领域，一项突破性的模型——LongWriter，标志着长文本撰写的新篇章。

写作长文本

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

该工具使用 pytorch 作为深度学习引擎，并遵循 Kaldi 风格的数据处理和特征提取/格式以及配方来提供各种不同的实验设置。

AudioCraft 音频

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1