文章列表-AI魔法学院

文章列表

AI制作艺术二维码 - 文生图

生成艺术二维码有两种方法：一是直接使用提示词，也就是文生图，这样出来的二维码比较漂亮，但是细节很难控制。

文生图

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（一）：安装与常用插件

提示词风格样式： .

文生图 comfyui

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

页面的完整文本内容图1：文本提取示意这样，我们可以实现对每个PDF组件提取的文本的更合乎逻辑的分离，并且有时可以帮助我们更容易地检索通常出现在特定组件中的信息

大语言模型 python

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

· 插件：一个库类，用于执行来自特定提供程序的特定任务，例如语音转文本。

voice agent 开源音视频

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

今天要学习的就是我上一篇笔记中所提到的Turbo，在官方的演示中这款软件实现了一打字就会出画面，画面随着提示词的更改实时变化。

SDXL-Turbo 文生图

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

一个小妙招从Prompt菜鸟秒变专家！加州大学提出PromptAgent，帮你高效使用ChatGPT！

▲优化示例可以看到，最终的这份Prompt涵盖了丰富的生物领域知识，且准确率得到了极大提升。

PromptAgent 大模型

深度｜红杉重磅发布：2024 AI 50 榜单 (全网最全)

红衫最新发布了2024年AI的Top50榜单，2024 年版的 AI 50 展示了生成式AI 如何开始改变企业生产力。

生成式AI 榜单 AI应用

从零开始用LangChain、Pinecone和LLMs搭建你自己的文档问答系统

这种方法可以提供更准确和最新的信息，利用来自各种来源的最新信息。

知识库 langchain

XX来信：智能体设计模式2：Reflection

智能体工作流不是让LLM直接生成最终输出，而是多次提示LLM，使其有机会逐步构建更高质量的输出。

Reflection 智能体

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

这种信息不对称不仅可能导致个人在职业发展上的困境，也可能使企业错失利用AI技术提升效率和创新的机会。

AI资讯 AI新闻

它来了！SDXL + ControlNet 终于强强联合！

我们都知道，相比起通过提示词的方式，ControlNet 能够以更加精确的方式引导 stable diffusion 模型生成我们想要的内容。

SDXL

总结些SDXL出人像时遇到的困难

一直想搞人像摄影类写真，苦于不知道出什么主题，这次的大英博物馆系列真是给我指明了方向，可以根据文物颜色、材质、内容出图，也是锻炼了我的提示词能力。

文生图 SDXL

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的，遇到 “foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片 token 化，Vary 提出就是解决这一问题

OCR 手写文字识别

中学生也能看懂的Sora视频生成原理解读

这种处理多样化视觉数据的能力，使得Sora在接收到如‘猫坐在窗台上’这样的文本提示时，不仅能理解这个提示背后的意图，还能利用它的内部表示形式，综合利用不同类型的视觉信息，生成与文本提示相匹配的视频或图片

视频生成 sora

<...13 14 15 161718 19 20 21 22 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1