文章列表-AI魔法学院

文章列表

更强的小型LLM：Zephyr-7B

该模型由 Hugging Face 创建，实际上是在公共数据集上训练的 Mistral-7B 的微调版本，但也通过知识蒸馏技术进行了优化。

Zephyr-7B 大语言模型

Stable Diffusion

硬核解读Stable Diffusion（系列二）

这里将negative prompt设为"trees, bushes, leaves, greenery"，其生成的建筑物就干净了很多：可以看到合理使用negative prompt能够帮助我们去除不想要的东西来提升图像生成效果

StableDiffusion 文生图

几款开源的OCR识别项目，收藏备用

随着科技的发展，OCR场景随处可见，很多APP也集成如身份证识别，银行卡识别的功能，包括微信都支持截图文件中的文字提取。现在，各大厂商均有提供各种场景的OCR识别的API。但是，有时候我们也想自己来折腾一下。这时候，就可以借助一些主流开源框架来快速达到我们的目的。

OCR

一文看懂RAG：大语言模型落地应用的未来

RAG技术为何如此重要？

rag 检索增强

ComfyUI 图片以及工作流管理神器

不仅如此，还可以远程订阅官方或者大佬们公开的工作流网站，方便我们学习最新的工作流技术，与时俱进。

comfyui 工作流

中学生也能看懂的Sora视频生成原理解读

这种方法的灵感来源于处理静态图像的技术，其中图像被分成小块以便于更有效地处理。

视频生成 sora

Animatediff V2 版本来了！就一个字：秀

这一版主要插件新增支持了三个功能：Lora、ControlNet 和 Prompt travel。

Animatediff 文生图

10大Midjourney描述词网站，让你Ai创作随心所欲！

www.midlibrary.io/categories Midlibrary它提供了大量的艺术家风格列表，包括 2078 种Midjourney AI 的流派、艺术运动、技巧和艺术家风格

描述词文生图

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

模型效果为了比较模型效果，这里是选择了包含21个类别的2100个prompt进行人工评测，评测也包括两个方面：生成图像和文本的一致性和视觉质量。

Kandinsky-3 文生图开源模型

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

毕竟这玩意，看的还是底层声音大模型的质量，这个5s的录音数据，相当于一个小的prompt，来给这个声音大模型做一个提示。

剪映声音克隆

LangChain - RAG: 拿什么「降伏」PDF 中的 Table 类型数据

Generation (RAG) pipelines) 库，我们看到 LangSmith 也针对 Ragas 做了一些集成方面的优化，效果评估一直就是 LangSmith 的主打方向，话说回来，类似 Debug、Prompt

大模型 LangChain RAG

GitHub工程师分享开发Copilot所采用的提示词工程

最近，微软开源了 LMOps 工具包，其中包含了 Promptist（一种用于优化用户文本输入以生成图像的工具）和结构化提示词（一种用于在少量学习提示词中包含更多样本来生成文本的技术）。

开源模型

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

引言在数字时代，技术的进步正在不断突破我们对现实与虚拟的界限。

VividTalk 视频

利用LangChain建gpt专属知识库，如何避免模型出现“幻觉”，绕过知识库知识乱答的情况？

gt; 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到prompt

LangChain 知识库

Stable Diffusion

Stable Diffusion 加速/优化/升级优化出图速度

Stable-Diffusion-Webui-Civitai-Helper 🔗 链接：https://github.com/butaixianran/Stable-Diffusion-Webui-Civitai-Helper 提示词神器：prompt-all-in-one

Stable Diffusion 文生图

<...34 35 36 373839 40 41 42 43 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1