文章列表-AI魔法学院

文章列表

LangChain 的问题所在

摆脱繁琐，追求高效。

大模型大语言模型

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字，但是你需要用多个工具，而且效果不理想！

大模型开源模型语音

GPT让你拥有超强的写作能力！

在职场中，写作是一项不可或缺的技能，无论是撰写电子邮件、报告、计划书还是演示文稿，清晰有效的书面沟通都是成功的关键。

GPT 写作

【分享】SDXL模型最佳拍档！COMFY UI上手指南

理论上，SDXL 1.0 应该在具有 8GB VRAM 的 GPU 上有效工作。

大模型

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

我用AI写小说：「国学篇」如何将国学插入小说中

通过上述多种方法的结合与运用，国学文化能够在小说创作中焕发新的生命，达到教化与娱乐相结合的效果，让读者在享受阅读的同时，潜移默化地受到传统文化的熏陶。

国风国学写作

语音、视频转文字神器：开源whisper介绍

下图展示了使用large-v2模型对Fleurs数据集进行的WER（词误率）语言拆解。

人工智能大模型 wisper

PymuPDF4llm：PDF 提取的革命

然而，从 PDF 中高效、准确地提取信息一直是一个具有挑战性的任务。

PymuPDF4llm PDF

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

用AI生成PPT、用AI优化PPT!

我在前几天写过五大AI工具自动生成PPT效果对比（点击看原文），当时我在文中引用的是百度AI对话的PPT生成插件，我对这个插件生成的PPT的评价不高，但是在体验了百度文库的智能PPT功能后，有种“识别三日

AI ppt

爆肝两天！ChatGPT+提示词解决知识库目录混乱

对于职场新手可能缺乏有效的知识管理和分类技巧，导致知识库变得错综复杂。

智能分类大模型知识库

Stable Diffusion

Stable Diffusion 抽卡必备神器！Agent Scheduler

相信大家在玩 Stable Diffusion 的时候一直有一个痛点，每次出图抽卡时都只能等待上一次抽卡结束，才能继续下一次抽卡；特别是当我们想抽大量的卡来测试不同的模型，不同的参数的效果时，那么是非常奔溃的

Agent Scheduler Stable Diffusion

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

在身体姿态估计任务上，使用CNN提取的特征，结合定制化的transformer模块进行特征增强，视觉transformer取得了很好的效果。

ViTPose+Transformer 身体姿态

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

视觉编码器Siglip - 400m则专注于图像信息的处理，以384分辨率和14×14的块大小生成图像嵌入，将图像转换为模型可理解的向量表示。

OmniVision -968M 多模态模型

AI绘画 | Midjourney高质量肖像提示词的写法（附50+肖像提示词prompt）

相信很多同学在使用Midjourney生成肖像绘画时,都遇到过这样的困扰:明明想要AI帮我画一张逼真的肖像作品,但是无论怎么尝试提示词,生成的结果要么不伦不类,要么就是缺乏细节,无法达到预期的逼真效果。

文生图

<...14 15 16 171819 20 21 22 23 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1