文章列表-AI魔法学院

文章列表

一文彻底搞懂多模态 - 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。

多模态推理大模型

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

大模型

OCR的终极解法——传统算法VS多模态大模型

多模态大模型做 OCR 上面介绍了传统的大模型分两步处理才能获取识别后的名片信息，那么有没有可能一步识别出结果呢？

OCR 大模型文字识别

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

s=20 语言模型之外，继续开源两个中文多模态大模型在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型

开源模型

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

论文摘要大型多模态模型（LMMs）通过多感官技能，如视觉理解，来扩展大型语言模型（LLMs），以实现更强的通用智能（注意 LMMs 与 LLMs的区别）。

多模态大模型 GPT-4V 文生图

GLM4 开源了！！！还有多模态

多语言支持，沟通无界限本代模型增加了对 26 种语言的支持，包括日语、韩语、德语等，让 AI 的语言能力不再受限。

智普 ChatGLM 多模态

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

终于又有时间更新文章了，今天继续总结最近一周的研究动态，梳理了10篇有关大模型(LLMs)的最新研究进展，其中涉及涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。

大模型研究

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

被高估的Pika，被低估的多模态AI

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态 AI ，原因很简单，因为 OpenAI 说明这条路是能够走得通

大模型多模态

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

在当今数字化与智能化浪潮汹涌的时代，人工智能技术不断取得突破性进展，多模态模型作为其中的前沿领域，正日益成为研究和应用的热点。

OmniVision -968M 多模态模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者提出了一种有效的多模态训练模式，从 7B 模型开始，经过两个阶段的多模态对齐和多任务微调，分别针对音频、图像、视频和文本模态。

Baichuan-Omni 多模态大模型

chatglm3基础模型多轮对话微调

base模型去自由地做SFT了。

ChatGLM 微调

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1