文章列表-AI魔法学院

文章列表

Stable Diffusion

硬核解读Stable Diffusion（系列一）

latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder模块就可以得到生成的图像。

StableDiffusion 文生图

颠覆数据存储方式：向量数据库的威力

[0.12, 0.32, -0.5] 在计算机视觉中，图像可以通过一组数值（即像素值）表示，这组数值构成一个向量。

编程数据库

AI换脸工具:facefusion使用心得

frame_enhancer: 提升整个帧的图像质量。

FaceFusion 文生图

一键AI换脸！小红书和北大合作的InstantID

这个模块通过解耦的交叉注意力机制，使得图像和文本能够独立地影响生成过程，从而在保持身份信息的同时，允许用户对图像风格进行精细控制，实现「双赢」。

InstantID 文生图

医疗+人工智能的创新应用

AI+医疗产业链上游为仪器产商包括影像设备厂商、医疗机器人厂商。

大模型

如何用大语言模型构建一个知识问答系统

这里提供一个 python 库textract[12]，支持从多种类型文件中提取文字信息，普通文本文件自不必说，其它各种常用格式文件也都支持，比如：Microsoft 全家桶 docx, xlsx；图像

知识库

宁德核电推出全球参数量最大的核工业大模型｜InfoQ 独家

便可迅速进行专利审查工作并给出风险分析： · 核工业首个多模态 AI 讲师书锦，通过文字、图像、

宁德核电大模型

全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线

从几万字到几十万字，头部创业公司都在抢滩「长窗口」如果你关注大模型在文本理解方向的应用，或许会注意到一个现象：一开始，大家用来测评模型能力的文本可能都是一些财报、技术报告，这些文本通常有十几页到几十页不等

Baichuan2 百川开源

Stable Diffusion

超详细的 Stable Diffusion ComfyUI 基础教程（二）：文生图基础流程

是不是有大模型、正向提示词、反面提示词、采样器、步数、宽高、VAE、显示图像。

comfyui 文生图

ComfyUI学习笔记2，一文看透Workflow

上图，从最左边加载模型开始，经过中间的CLIP Text Encode对关键词Prompt做处理，加入一个初始的Latent Image，然后是采样器，VAE解码，最后得到生成的图像。

comfyui 文生图

麦肯锡专家都在用的方法：用ChatGPT速览用户研究领域的 50 个核心概念

这个过程就像在绘制现实生活中的同理心地图。

用户工作

人工智能的应用范式呼之欲出

Bloomberg-GPT、法律领域的ChatLaw、医疗领域的Med-PaLM 和自然科学研究领域的DARWIN等垂直领域大模型都是类似的思路：历史积累丰富垂直行业数据经过清洗标注后形成知识库，在大模型基座上从头进行训练

大模型

Prompt 策略：代码库 AI 助手的语义化搜索设计

这些助手能够回答关于代码库的问题、提供文档、搜索代码、识别错误源头、减少代码重复等，从而提高开发效率、降低错误率，并减轻开发者的工作负担。

prompt

Fastwhisper + Pyannote 实现 ASR + 说话者识别

//modelscope.cn/models/manyeyes/speaker_recognition_task_models_onnx_collection/files下载，下载wespeaker开头的

faster-whisper 语者识别 ASR

新模型Cascade你真的用对了吗？！

而Stable Cascade 的压缩系数为 42，这意味着可以将 1024x1024 图像，在潜空间的编码为 24x24，这样就可以使用更小的潜空间尺寸，并且实现清晰的图像输出。

Stable Cascade 模型

<...40 41 42 434445 46 47 48 49 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1