文章列表-AI魔法学院

文章列表

Stable Diffusion

Stable Diffusion快速生图，LCM-Lora、sd_xl turbo寄养和亲生谁好？！

SDXL-Turbo 基于一种称为对抗扩散蒸馏 (ADD) 的新颖训练方法，该方法允许在高图像质量下以 1 到 4 个步骤对大规模基础图像扩散模型进行采样。

sdxl SD 绘画

字节推出开源绘画大模型SDXL-Lightning，秒级出图

相较于其他SDXL大模型，SDXL-Lightning最显著的优点在于可一步生成图像。

sdxl 字节绘画

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

方法本文介绍了一种方法，可以根据音频序列和参考面部图像生成具有多样化面部表情和自然头部姿势的说话头像视频。

VividTalk 视频

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

把野餐布上的另一只小熊换成这只鞋，再给它做个镜像效果，画个框，就可以静待魔法生成了。

Anydoor 文生图

华为盘古画画3.0发布 | PanGu-Draw：业界最大的中文文生图模型，效果YYDS！

· · PanGu-Draw (5B模型)可以生成与文本和各种控件对齐的高质量图像，提高了基于扩散的图像生成的可扩展性和灵活性。

PanGu-Draw 文生图

18种 DALL-E 3 炫酷的文字效果和提示词

在图片上添加文字不仅可以传达信息，还可以吸引观众的注意力。

DALL-E 3 提示词文生图

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

它们在交互性方面可能会遇到困难，或者存在延迟问题。

GLM-4-Voice 9B 语音安装

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

：又或是手机页面截图：甚至可以将图片中的表格转换成 Latex 格式：当然，作为多模大模型，通用能力的保持也是必须的： Vary 表现出了很大的潜力和极高的上限，OCR 可以不再需要冗长的

OCR 手写文字识别

一张照片秒生不同风格图像！小红书InstantID来了！

最近腾讯的PhotoMaker很火，因为仅需要一张大头照就可以快速实现类似妙鸭相机的效果，现在又有一个类似的解决方案InstantID出现了，它能够在保持高保真度的同时，仅使用一张面部图像实现个性化图像合成

InstantID 文生图

阿里腾讯豪华阵容参投，智谱AI投资版图曝光

尽管有不同的测算口径，但智谱的估值早已超过10亿美元的门槛，有不少分析认为甚至有可能上看150亿人民币，考虑到今年三个季度的融资总额达到25亿，这个数字并没有夸张。

智谱阿里

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

这种类型的文件可以包含各种组件，例如图像、文本和链接，这些组件都是可以被选中、搜索和易于编辑的。

大语言模型 python

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

https://youtu.be/adDyTzBdUcg 其生图的速度远远超过了传统生成的速度，都什么年代还在边等图边打星穹铁道？

SDXL-Turbo 文生图

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

但有时嵌入/检索大的文本块可能会感觉不太理想。

RAG 检索

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（二）：文生图基础流程

Checkpoint Loader，这是我们上节课安装的 ComfyUI-Custom-Scripts 插件中的加载器，可以用来预览缩略图）。

comfyui 文生图

用户意图对齐，无需人工标注，Zephyr-7B 超越 Llama2-Chat-70B

该研究目标是创建一个与用户意图更符合的小型语言模型。

小型语言模型 Zephyr-7B

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1