文章列表-AI魔法学院

文章列表

PhotoMaker：腾讯最新开源，根据照片生成该人物各种风格图片，项目可落地！

项目简介 PhotoMaker是腾讯最近开源的照片生成工具，这是一种高效的个性化文本到图像生成方法。

PhotoMaker 文生图

解读：一个数学在线教育网站如何做到一千万月访问量

老外的乘法表有意思，是一个正方形，这里也提醒我们出海做网站时，需要了解当地的文化，不能按照国内的理解去做。

访问量

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

医学图像理解。

多模态大模型 GPT-4V 文生图

鹅厂最新AI工具刷屏！杨幂寡姐多风格写真秒秒钟生成，LeCun点赞 | 可免费体验

值得注意的是，他们这里强调了，他们不会进行人脸检测，但上传的图片人脸已经要占据图片大部分。

PhotoMaker 图生图

万字长文震撼来袭！揭秘Transformer——吐血解读自注意力机制的革命性突破

Transformer遵循这种总体架构，使用堆叠的自注意力机制和逐点、全连接层，分别用于编码器和解码器，如图1的左半部分和右半部分所示。

Transformer 大模型

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

近年来，随着SD和Midjourney的火热，文本到图像生成（Text-to-Image Generation）的研究取得了令人瞩目的进展，让我们能够用自然语言指导AI创造出各种各样的图像。

LCM/LCM-LoRA 文生图

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

随着生成型人工智能（AI）的飞速发展，多模态理解和代码生成的能力达到了前所未有的水平。

设计转代码大模型

手把手教你用 SD 生成文字形状的光线，用来做营销宣传图非常有效

昨天类似这种文字光效或者将文字合成在衣服上的图好像又火了，很多朋友在问怎么做，其实就是ControlNet的简单应用，比如模拟光线照射文字的，之前用来调整自然光线的角度和范围这次不过是将原来模拟光照的图变成了文字了

图像文字 ControlNet Stable Diffusion

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

面对这一问题，FaceChain 给出了解决方案：无需大量数据，无需训练等待，甚至无需训练，只需要一张图片 10 秒钟即可立即生成 AI 写真！

FaceChain FACT 文生图

剪映克隆声音功能详解：剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

剪映应用推出了一项名为“AI克隆音色”的创新功能，这一功能允许用户在短短5秒内捕捉并复制特定的声音样本。通过先进的人工智能技术，剪映能够分析并学习目标声音的特征，然后生成与原声音极为相似的复制品。这一功能的上线，不仅为用户提供了前所未有的创作自由度，也为声音设计和个性化服务开辟了新的可能性。

剪映声音克隆

一文彻底搞懂多模态 - 多模态推理

接下来分两部分：知识图谱推理、多模态推理任务，一起来深入了解多模态应用：多模态推理。

多模态推理大模型

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

这标志着我们如何理解和创造虚拟世界的方式即将迎来根本性的变革。

视频生成 sora

免费的文本生成视频解决方案：AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI

AnimateDiff 是一个基于 Stable Diffusion 模型的文本生成视频插件，它通过控制模块影响图像生成过程，使得生成的图像序列具有与训练视频剪辑相似的特征。

视频生成文生视频

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

然而，语言模型缺乏像人类一样感知非文本模态（如图像和音频）的能力。

大模型语音

AI资讯速递 - 快人一步！为你填平AI领域信息差及时揭示AI领域的最新动态

人工智能可以帮我画图吗？

AI资讯 AI新闻

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1