文章列表-AI魔法学院

文章列表

一文彻底搞懂多模态 - 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。

多模态推理大模型

GLM4 开源了！！！还有多模态

【https://github.com/THUDM/GLM-4】高级功能，一应俱全多轮对话：GLM-4-9B-Chat 支持流畅的多轮对话体验。

智普 ChatGLM 多模态

OCR的终极解法——传统算法VS多模态大模型

多模态大模型做 OCR 上面介绍了传统的大模型分两步处理才能获取识别后的名片信息，那么有没有可能一步识别出结果呢？

OCR 大模型文字识别

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

大模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

因此，训练多模态模型的重点是如何融合互补不同模态间的信息，并充分利用现有大语言模型能力。

开源模型

被高估的Pika，被低估的多模态AI

多模态 AI 正处于爆发前夜。

大模型多模态

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

我们希望这种初步探索将激发未来对下一代多模态任务制定、新方法来利用和增强 LMMs 以解决实际问题，以及更好地理解多模态基础模型的研究。

多模态大模型 GPT-4V 文生图

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

终于又有时间更新文章了，今天继续总结最近一周的研究动态，梳理了10篇有关大模型(LLMs)的最新研究进展，其中涉及涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。

大模型研究

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

在当今数字化与智能化浪潮汹涌的时代，人工智能技术不断取得突破性进展，多模态模型作为其中的前沿领域，正日益成为研究和应用的热点。

OmniVision -968M 多模态模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者提出了一种有效的多模态训练模式，从 7B 模型开始，经过两个阶段的多模态对齐和多任务微调，分别针对音频、图像、视频和文本模态。

Baichuan-Omni 多模态大模型

零一万物API开放平台出场！通用Chat多模态通通开放，还有200K超长上下文版本

§ Yi-VL-Plus：多模态模型，支持文本、视觉多模态输入，中文图表体验超过GPT-4V。

零一万物 YI 李开复

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1