文章列表-AI魔法学院

文章列表

Prompt屠龙术-大厂prompt工程指南解析提炼

让您的指令易于理解，以便人工智能能够快速掌握您的意图。

prompt 大模型解析

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

盘点数据安全合规方向的热门证书【快来了解一下】

获得CIPP/E认证代表对GDPR知识点的全面掌握，以及足够的理解数据保护&在欧洲的相关法规，并在欧洲隐私法的相关职业发展上占据优势。

工作

Stable Diffusion

Stable Diffusion | SD的老舅ComfyUI来了，节点式工作流，分部控制出图

也可以鼠标双击界面，弹出搜索窗口，直接搜索常用版块：一般会有主模型/提示词（clip模型）/采样器/初始潜空间（参数设置）/VAE解码器/图像保存。

生成式AI

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。

语音识别 Faster-Whisper

深度解读｜做出海必看的一份产品报告

前段时间我们分析的 Voiceflow 和经典的小而美 SaaS企业 Calendly 都是 OpenView 被投版图的一部分。

工作

技术爆炸！AI一图换脸新王者，Instant ID保姆级安装与使用测评

在SD中有很多人物换脸的新技术，比如像之前的Roop还有ReActor，它们都可以实现仅凭一张图进行人物换脸，后来又出现了EasyPhoto，可以通过快速炼制的小模型来对人物进行模仿。

Instant ID 文生图

Agent : 一文读懂LLM Agent架构，详解Profile，Memory，Planning，Action模块作用

对于对Agent感兴趣的朋友们，我推荐一篇论文，它全面地介绍了Agent的架构，对于理解Agent的全局有着重要的价值。

大模型 LLM Agent

令人惊艳的开源图标生成AI模型：ChartLlama （南洋理&腾讯）

ChartLlama是一个由南洋理工大学和腾讯联合开发的多模态语言模型，它可以根据你的指令来理解和生成图表。

ChartLlama 开源模型图标

8G显存一键训练，解锁Llama2隐藏能力！XTuner带你玩转大模型

InternLM/xtuner （文末点击阅读原文可直达，欢迎体验） X 种选择 XTuner 提供了丰富的功能，上图中的各项功能都可以随意组合搭配

大模型

Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案

Rerank为什么可以解决这个问题？

RAG 检索增强

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

《OpenAI官方：GPT 最佳实践》大白话编译解读版本

值得注意的是，这文章原版为全英文，但并非繁琐深奥，任何人都可轻松理解并掌握其精髓。

提示词官方翻译

OCR的终极解法——传统算法VS多模态大模型

多模态大模型是一类采用深度学习技术构建的人工智能模型，它能够处理和理解多种类型的数据模态，如文本、图像、声音等。

OCR 大模型文字识别

中学生也能看懂的Sora视频生成原理解读

Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。

视频生成 sora

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1