文章列表-AI魔法学院

文章列表

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

令人惊艳的开源图标生成AI模型：ChartLlama （南洋理&腾讯）

制作图表是一件既费时又费力的事情，需要掌握各种软件和技巧那么，能否使用AI大语言模型来生成图标呢？

ChartLlama 开源模型图标

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

原生的视频生成技术路线整体上，可灵大模型的采用了原生的文生视频技术路线，替代了图像生成+时序模块的组合，这也是可灵生成时间长、帧率高，能准确处理复杂运动的核心奥义。

可灵快手文生视频

Sora懂不懂物理世界？

丘成桐先生的弟子, 计算机图形学专家顾险峰从数学角度给出了很精到的分析：https://mp.weixin.qq.com/s/IUN1Y6TDATtFOK9r8m8iUQ 顾险峰老师在文中列举了Sora

文生视频视频生成 sora

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

视觉编码器Siglip - 400m则专注于图像信息的处理，以384分辨率和14×14的块大小生成图像嵌入，将图像转换为模型可理解的向量表示。

OmniVision -968M 多模态模型

Stable Diffusion

Stable Diffusion快速生图，LCM-Lora、sd_xl turbo寄养和亲生谁好？！

SDXL-Turbo 基于一种称为对抗扩散蒸馏 (ADD) 的新颖训练方法，该方法允许在高图像质量下以 1 到 4 个步骤对大规模基础图像扩散模型进行采样。

sdxl SD 绘画

字节推出开源绘画大模型SDXL-Lightning，秒级出图

相较于其他SDXL大模型，SDXL-Lightning最显著的优点在于可一步生成图像。

sdxl 字节绘画

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

为了使定制对象生成泛化性更强，作者从视频中收集了同一对象的图像对，方便模型学习生成对象的外观变化。

Anydoor 文生图

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

涵盖了 AI 绘画、AI 视频、AI 音乐、AI 数字人等各个领域今天给大家推荐一款AI神器，匹诺曹Pinokio！

AI绘画 AI视频 AI音乐

华为盘古画画3.0发布 | PanGu-Draw：业界最大的中文文生图模型，效果YYDS！

相反，作者将高分辨率图像与升级后的低分辨率图像集成在一起。

PanGu-Draw 文生图

一张照片秒生不同风格图像！小红书InstantID来了！

最近腾讯的PhotoMaker很火，因为仅需要一张大头照就可以快速实现类似妙鸭相机的效果，现在又有一个类似的解决方案InstantID出现了，它能够在保持高保真度的同时，仅使用一张面部图像实现个性化图像合成

InstantID 文生图

阿里腾讯豪华阵容参投，智谱AI投资版图曝光

清华朋友圈智谱的投资版图几乎就是一个清华朋友圈。

智谱阿里

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

然后软件会在图像上添加一个带有实际文本的图层，这样你就可以在浏览文件时选择它作为一个单独的组件。

大语言模型 python

Stable Diffusion

张嘴就能生图？这已经不是科技，这是魔法！（Stable Diffusion进阶篇：SDXL-Turbo）

https://youtu.be/adDyTzBdUcg 其生图的速度远远超过了传统生成的速度，都什么年代还在边等图边打星穹铁道？

SDXL-Turbo 文生图

<...6 7 8 91011 12 13 14 15 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1