文章列表-AI魔法学院

文章列表

一文彻底搞懂多模态 - 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。

多模态推理大模型

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

OCR的终极解法——传统算法VS多模态大模型

多模态大模型做 OCR 上面介绍了传统的大模型分两步处理才能获取识别后的名片信息，那么有没有可能一步识别出结果呢？

OCR 大模型文字识别

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

s=20 语言模型之外，继续开源两个中文多模态大模型在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型

开源模型

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

论文摘要大型多模态模型（LMMs）通过多感官技能，如视觉理解，来扩展大型语言模型（LLMs），以实现更强的通用智能（注意 LMMs 与 LLMs的区别）。

多模态大模型 GPT-4V 文生图

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

终于又有时间更新文章了，今天继续总结最近一周的研究动态，梳理了10篇有关大模型(LLMs)的最新研究进展，其中涉及涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。

大模型研究

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

GLM4 开源了！！！还有多模态

长文本推理：支持最大 128K 的上下文，GLM-4-9B-Chat-1M 模型更是支持高达 1M 的上下文长度。

智普 ChatGLM 多模态

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

在当今数字化与智能化浪潮汹涌的时代，人工智能技术不断取得突破性进展，多模态模型作为其中的前沿领域，正日益成为研究和应用的热点。

OmniVision -968M 多模态模型

被高估的Pika，被低估的多模态AI

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态 AI ，原因很简单，因为 OpenAI 说明这条路是能够走得通

大模型多模态

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

在本文中，作者介绍了 Baichuan-Omni，这是第一款开源的 7B 多模态大语言模型（MLLM），能够同时处理和分析图像、视频、音频和文本的模态，同时提供先进的模态交互体验和强大性能。

Baichuan-Omni 多模态大模型

自己电脑上跑大语言模型（LLM）要多少内存？

模型文件大小模型文件大小可以通过看[参数量]+[精度]来简单计算。

大语言模型运行

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1