文章列表-AI魔法学院

文章列表

ComfyUI安装教程

在我们运行默认工作流之前，让我们进行一个小修改，以便在不保存图像的情况下预览生成的图像： 1 右键单击保存图像节点，然后选择删除。

ComfyUI安装

大模型微调方法总结

结合图片来看，LoRA 的实现流程如下： ● 在原始预训练语言模型（PLM）旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的内在秩。

开源模型

14.6K star！最好用的OCR文字识别项目，没有之一！

项目是基于PaddleOCR开发的，支持截图识别、批量导入识别、个性化识别等功能。

Umi-OCR 开源项目文字识别

来自Microsoft Build 2023：大语言模型是如何被训练出来的

全文围绕如下的这个图展开：这幅图很好地总结了大语言模型的训练全景，主要包括四个阶段：预训练阶段：基于原始数据训练一个基础模型，得到的是一个base model，可以部署使用有监督微调阶段

大模型

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

而上传图片的限制，可能会让用户进行多次尝试——系统会校验图片像素大小、人脸清晰程度、非多人、版权风控、画风检测、不能有头部倾斜、露出手部等条件。

EMO 阿里全民演唱

大模型量化：什么是模型量化，如何进行模型量化

非饱和量化是最本质也是最暴力的方法，即通过统计网络模型中每一个层中权重或激活值的绝对最大值，将其映射到127，来计算出缩放因子scale，然后使用线性映射的方式将原始的浮点数据转换到INT8的数据域中，如下图（

大模型

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

下面是实测的一次看图说话任务，MiniCPM-V 2.0 出现了 3 处幻觉，GPT-4V 出现了 6 处幻觉（见图下高亮红字）：除了越来越强大的通用能力

MiniCPM 大模型

Fastwhisper + Pyannote 实现 ASR + 说话者识别

wespeaker-voxceleb-resnet34-LM https://huggingface.co/pyannote/segmentation-3.0 最后再修改下config.yaml里的模型路径，参考我的：在这里插入图片描述

faster-whisper 语者识别 ASR

微调大型语言模型-核心思想和方法介绍

与上下文学习相关的是硬提示调整（hard prompt tuning）的概念，我们修改输入以希望改进输出，如下图所示。

大模型训练

开源本地化部署的「妙鸭相机」，真的要革了「海马体」们的命了？｜手把手教你搭建「妙鸭相机」

为了解决这种不真实的问题，团队引入了Stable Diffusion模型的图像到图像功能。

训练

ComfyUI | 这么入门就顺了，硬入疼的是自己

基础工作流五核心板块（大模型、VAE、提示词、参数采样设置和生图窗口）本人是三维软件爱好者，像OC渲染器这种节点连节点的看多了，看Comfy界面自带好感，但是直接看内容逻辑就有点卡眼睛，于是就从熟悉的

生成式AI

用AI生成PPT、用AI优化PPT!

生成的PPT颜色可以随时让它修改生成的部分PPT 生成后的PPT，我发现部分配图和内容不对应，部分文字内容前后重复。

AI ppt

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

这就好比你问了一个复杂的问题，RAG先跑去图书馆查资料。

OCR RAG 开源

Sora懂不懂物理世界？

丘成桐先生的弟子, 计算机图形学专家顾险峰从数学角度给出了很精到的分析：https://mp.weixin.qq.com/s/IUN1Y6TDATtFOK9r8m8iUQ 顾险峰老师在文中列举了Sora

文生视频视频生成 sora

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

，时长00:17 为什么只需要上传一张图就能立即做到逼真效果？

音频阿里

<...32 33 34 353637 38 39 40 41 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1