星标破万！小钢炮2.6登顶GitHub，Hugging Face TOP3，燃爆开源社区！

面壁智能多模态大模型 MiniCPM-V

https://github.com/OpenBMB/MiniCPM-V

想到了直升机，没想到的是火箭！ MiniCPM-V 2.6 一经发布，火箭登顶全球著名开源社区 GitHub 与 HuggingFace 趋势榜 Top 3。至此，面壁小钢炮 MiniCPM-V系列，GitHub 星标破万! 小钢炮MiniCPM系列自今年2月1日面世以来，累计下载量已超百万！

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比，MiniCPM-V 2.6 性能提升显著，并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括：

🔥 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
🖼️ 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平，并展现出了优秀的上下文学习能力。
🎬 视频理解。 MiniCPM-V 2.6 还可以接受视频输入，进行对话和提供涵盖时序和空间信息的详细视频描述。模型在有/无字幕评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。
💪 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像，像素数可达 180 万（如 1344x1344）。在 OCRBench 上取得最佳水平，超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V 和 VisCPM 技术，其具备了可信的多模态行为，在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V，并支持英语、中文、德语、法语、意大利语、韩语等多种语言。
🚀 卓越的效率。除了对个人用户友好的模型大小，MiniCPM-V 2.6 还表现出最先进的视觉 token 密度（即每个视觉 token 编码的像素数量）。它仅需 640 个 token 即可处理 180 万像素图像，比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此，MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解。
💫 易于使用。 MiniCPM-V 2.6 可以通过多种方式轻松使用：(1) llama.cpp 和 ollama 支持在本地设备上进行高效的 CPU 推理，(2) int4 和 GGUF 格式的量化模型，有 16 种尺寸，(3) vLLM 支持高吞吐量和内存高效的推理，(4) 针对新领域和任务进行微调，(5) 使用 Gradio 快速设置本地 WebUI 演示，(6) 在线demo即可体验。

在众多开发者心中，MiniCPM 渐渐成了一把衡量端侧模型能力极限的标尺，最新的 MiniCPM-V 2.6 再次抬高了端侧多模态的性能天花板：

仅 8B 参数，单图、多图、视频理解全面超越 GPT-4V ！
小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。
端侧友好：量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。

端侧模型首次具备实时视频理解能力，这在全球技术圈反响热烈！MiniCPM-V 2.6 多模态端侧模型，这从天而降的“眼-脑系统”，未来一旦植入手机、PC、AR、具身机器人、智能座舱，我们日常随身之物开始“睁眼看世界”，理解真实物理世界的 Video 流。太奇幻了！确实太火爆了！众多大牛成为小钢炮的“追星”族。面壁小钢炮到底有多受关注？最新的MiniCPM-V 2.6 一发布，就引发了核心开发者圈层的追踪，比如 Hugging Face 开源社区大神 AK "怒"转数条 MiniCPM-V 2.6 相关信息：