文章列表-AI魔法学院

文章列表

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

语音助理和远程语音助理：数字人可以作为语音助理，进行语音交互，提供信息查询、日程管理等辅助任务。

Fay 开源项目数字人

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

零样本 & 小样本 TTS：输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。

Fish Speech 本地搭建

教你打造属于自己的AI孙燕姿，AI歌手模型使用及训练保姆级课程 #1/2 使用模型

原始声音处理要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去，然后使用模型把原来的音色换成你模型训练好的音色（类似AI画图的img2img垫图）。

生成式AI

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

），顾名思义，它就是能预测出随机图里包含什么噪音的模型。

Stable Diffusion 文生图

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

多模态（Multi-Modal）: 多模态主要是指让机器能够理解和处理自然界或人工定义的多种模态信息，如声音、语言、视觉信息和表格、点云信息等。

开源

基于LLM+向量库的文档对话痛点及解决方案

痛点：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失笔者之前采用了Longchain的文档切分工具，发现不能问题。

开源模型

Roop参数说明，ROOP->StyleGAN演示！

保留音轨（keep audio）音轨就是指视频的声音，勾选这个参数就是保留原视频的声音，大部分情况下，肯定是要选择启用。

视频 StyleGAN

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字

提示词 prompt

搞了一个Dify开源知识库

Workflow：打造你的智能工作流 · 初衷：也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下

Dify 大模型知识库

来个优秀的开源人脸识别项目！

通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合，将人体固有的生理特征或行为特征收集起来，进行取样、数字化处理和分析。

人脸识别开源项目

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

蓝牙音箱，语音控制小度丝滑流畅。

ai小车 esp32 开源

打磨 8 个月、功能全面升级，Milvus 2.3.0 文字发布会现在开始！

具体来看：Milvus 2.3.0 不仅包含大量的社区呼声很高的新功能，还带来了诸如 GPU 支持、Query 架构升级、更强的负载均衡调度能力、新的消息队列、Arm版本镜像、可观测性、

大语言模型

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

24年的第一个月，智源就发布了新一代text embedding模型BGE M3-Embedding，该模型支持超过100种语言，能够接受不同形式的文本输入，文本最大输入长度扩展到4192，并且支持包括稠密检索，稀疏检索，多向量检索三种不同检索手段。从实验结果上看，在多语言跟跨语种检索任务上，BGE M3-Embedding的效果超过之前提及的微软E5-mistral-7b微软E5-mistral-7b-instruct: 站在LLM肩膀上的text embedding以及openai去年底刚发布的第三代text embedding模型，对于长文本检 ...

BGE M3-Embedding 多语音检索

Stable Diffusion

Stable Diffusion教程：采样器

后向扩散时，Stable Diffusion 先会生成一张完全的噪音图，然后根据提示词的语义，通过不断的采样来去除噪音图中不符合语义的噪音，而采样器就是去除噪音用的算法程序。

画图 SD 采样器

深入浅出人工智能常用技术，让你轻松掌握AI应用核心！

NLP 技术涉及到文本处理、语音处理、机器翻译等方面。

人工智能

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1