面壁智能多模态大模型
MiniCPM-V
https://github.com/OpenBMB/MiniCPM-V
想到了直升机,没想到的是火箭! MiniCPM-V 2.6 一经发布,火箭登顶全球著名开源社区 GitHub
与 HuggingFace 趋势榜 Top
3。 至此,面壁小钢炮 MiniCPM-V系列,GitHub 星标破万! 小钢炮MiniCPM系列自今年2月1日面世以来,累计下载量已超百万!
MiniCPM-V
2.6 是
MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:
- 🔥 领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
- 🖼️ 多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在
Mantis-Eval、BLINK、Mathverse
mv 和 Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。
- 🎬 视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在
有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B等商用闭源模型。
- 💪 强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等商用闭源模型。基于最新的 RLAIF-V 和 VisCPM 技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o 和 GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言。
- 🚀 卓越的效率。 除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 个 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解。
- 💫 易于使用。 MiniCPM-V 2.6 可以通过多种方式轻松使用:(1) llama.cpp 和 ollama 支持在本地设备上进行高效的 CPU 推理,(2) int4 和 GGUF 格式的量化模型,有 16 种尺寸,(3) vLLM 支持高吞吐量和内存高效的推理,(4) 针对新领域和任务进行微调,(5) 使用 Gradio 快速设置本地 WebUI 演示,(6) 在线demo即可体验。
在众多开发者心中,MiniCPM
渐渐成了一把衡量端侧模型能力极限的标尺,最新的 MiniCPM-V 2.6 再次抬高了端侧多模态的性能天花板:
- 仅 8B 参数,单图、多图、视频理解全面超越 GPT-4V !
- 小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。
- 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。
端侧模型首次具备实时视频理解能力,这在全球技术圈反响热烈!MiniCPM-V 2.6 多模态端侧模型,这从天而降的“眼-脑系统”,未来一旦植入手机、PC、AR、具身机器人、智能座舱,我们日常随身之物开始“睁眼看世界”,理解真实物理世界的 Video 流。太奇幻了!确实太火爆了!众多大牛成为小钢炮的“追星”族。面壁小钢炮到底有多受关注?最新的MiniCPM-V 2.6 一发布,就引发了核心开发者圈层的追踪,比如 Hugging
Face 开源社区大神 AK "怒"转数条 MiniCPM-V 2.6 相关信息:
全球各地的优秀开发者,在模型发布后,迫不及待进行了相关测试。
社交媒体上关于模型的评价正源源不断增加:
在知乎上,相关话题面壁「小钢炮」系列上新最强端侧多模态模型MiniCPM-V 2.6,其性能如何,有哪些应用场景?短短几天浏览量接近3万!一众优秀开发者将他们的第一手模型实测结果和多模态直观体验整理成详细长文。比如有人拿助盲视频实时理解的例子,描绘它的应用潜力。
甚至有人拿小钢炮2.6到文玩市场进行了实时的玉石鉴定...
➤ MiniCPM-V 2.6 GitHub 开源地址:
🔗 https://github.com/OpenBMB/MiniCPM-V
➤ MiniCPM-V 2.6 Hugging Face 开源地址:
🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6
➤ llama.cpp、ollama、vllm 部署教程地址:
🔗 https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc