文章列表-AI魔法学院

文章列表

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字

提示词 prompt

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。

chattts tts 文生语音

OpenAI视频模型Sora的推理生成成本多高？

（Video Encoder/Decoder 的计算量相比 DiT 可以忽略不计） Sora 的模型多大呢？

Sora 推理算力

大模型再发展5年，搜索引擎还在么？

可以想象一个极端情况，就是全网50%的内容都和一个人工智能生成的内容发生链接，那按照搜索的机制，无疑的这是应该被排到前面的，而则可能是不对的，它不一定质量很好，而只可能是被用其它模型生成内容用的多。

大模型

QAnything：网易有道最新开源的“本地化部署知识库”AI问答系统

·跨语言问答支持，可以在中英文问答之间自由切换，不受文档语言的限制。

网易 RAG 知识库

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

chatglm3基础模型多轮对话微调

user、assistant、换行等特殊token SFT的方式假设SFT的数据为 Q1,A1,Q2,A2,Q3,A3 SFT的过程只会计算 A1,A2,A3 的loss，且一次推理会同时计算多轮对话的

ChatGLM 微调

万字长文，大语言模型如何宣告心理学的死亡？

作为实验室任务参与者的LLM 人工智能心理学家们正在深入探索LLM的心理学特质，他们的研究揭示了LLM与人类认知机制在多大程度上存在差异和相似性。

大语音模型

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

通过约70万小时的多语种数据训练，实现了接近人类水平的语音合成效果，目前已更新到1.4版本。

Fish Speech 本地搭建

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

涵盖了 AI 绘画、AI 视频、AI 音乐、AI 数字人等各个领域今天给大家推荐一款AI神器，匹诺曹Pinokio！

AI绘画 AI视频 AI音乐

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

最近在搞克隆人，发现一个很好的声音克隆项目，测试了一下，效果真不错，可以直接用，也可以微调后使用，好了废话不多说，直接上干活，哈哈~~ &ensp

数字人声音克隆 GPT-SoVITS

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

开源：F5-TTS的代码和检查点被开源，以促进社区发展。

语音克隆开源模型

被高估的Pika，被低估的多模态AI

在行业主语为“落地”的当下，多模态 AI 正走向场景化、实用化、商业化。

大模型多模态

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1