文章列表-AI魔法学院

文章列表

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

https://arxiv.org/pdf/2311.07919.pdf 开源代码：https://github.com/QwenLM/Qwen-Audio 引言大型语言模型（LLMs）由于其良好的知识保留能力

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。最终，作者以实际测试数据展示了不同优化方式的速度对比。同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

图解 Transformer——功能概览

作者在系列文章中，介绍了 Transformer 的基本知识，架构，及其内部工作方式，并深入剖析了 Transformer 内部的细节。

Transformer 大模型图解

几款开源的OCR识别项目，收藏备用

github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库

OCR

OCR是什么以及推荐几款开源中文OCR识别软件

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

中文开源OCR框架对比及介绍

从严格定义来看，学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

谈Agent构建平台的设计

平台是否会对他们提出过分的技能/知识要求？

Agent 构建

ComfyUI 基础教程（二）：文生图基础流程

节点搜索窗口方式：双击鼠标呼出节点搜索窗口，如果你知道节点的名称，可以直接搜索，节省时间。

comfyui 文生图

本地部署操作AI抠图软件

可实现一键人像抠图，完胜小白操作PS人像抠图。

抠图

Stable Diffusion

Stable Diffusion基础：ControlNet之图片高仿

今天继续给大家分享AI绘画中 ControlNet 的强大功能，本次的主角是 Reference，它可以参考一张图片生成另一张看起来差不多的图片，这句话说起来有点绕，如果换成高仿，大家应该就明白了吧。

文生图

图文生成短视频的方法

我完全不知道自己能讲什么，每次尝试，都很痛苦，痛苦的原因在于：我不能像自己看过视频里的人一样——口若悬河，张口就来。

视频 ChatGPT

图解 transformer——逐层介绍

位置编码（Position Encoding） RNN 在循环过程中，每个词按顺序输入，因此隐含地知道每个词的位置。

Transformer 大模型图解

你真的会写 Prompt ? 剖析 RAG 应用中的指代消解

其中，检索增强生成（Retrieval-augmented generation，RAG）是一种针对知识密集型 NLP 任务的生成方法，它通过在生成过程中引入检索组件，从已知的知识库中检索相关信息

Prompt 大语言模型 RAG

无需编码，轻松提升图像品质：探索ComfyUI的图像增强功能

该GitHub项目提供的Nodes/Graph/Floochart接口使图像修改、合成和其他任务的复杂工作流变得简单。

文生图

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1