AI魔法学院客服
星标破万!小钢炮2.6登顶GitHub,Hugging Face TOP3, 燃爆开源社区!
MiniCPM-V 2.6作为面壁智能多模态大模型的最新成果,以8B参数在单图、多图及视频理解上全面超越主流商用模型,支持多模态理解和实时视频处理,具备高效推理和强大OCR能力,支持多种语言,成为端侧模型的新标杆。其发布后迅速登顶GitHub和HuggingFace趋势榜,引发全球开发者关注与测试,展现出广泛的应用潜力和未来前景。
 2024-10-11
收藏 复制地址分享海报

面壁智能多模态大模型 MiniCPM-V

https://github.com/OpenBMB/MiniCPM-V

想到了直升机,没想到的是火箭! MiniCPM-V 2.6 一经发布,火箭登顶全球著名开源社区 GitHub  HuggingFace 趋势榜 Top 3至此,面壁小钢炮 MiniCPM-V系列,GitHub 星标破万! 小钢炮MiniCPM系列自今年21日面世以来,累计下载量已超百万!

MiniCPM-V 2.6  MiniCPM-V 系列中最新、性能最佳的模型。该模型基于 SigLip-400M Qwen2-7B 构建,共 8B 参数。与 MiniCPM-Llama3-V 2.5 相比,MiniCPM-V 2.6 性能提升显著,并引入了多图和视频理解的新功能。MiniCPM-V 2.6 的主要特点包括:

  • 🔥领先的性能。 MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越了 GPT-4o miniGPT-4VGemini 1.5 Pro Claude 3.5 Sonnet 等主流商用闭源多模态大模型。
  • 🖼️多图理解和上下文学习。 MiniCPM-V 2.6 还支持多图对话和推理。它在 Mantis-EvalBLINKMathverse mv Sciverse mv 等主流多图评测基准中取得了最佳水平,并展现出了优秀的上下文学习能力。
  • 🎬视频理解。 MiniCPM-V 2.6 还可以接受视频输入,进行对话和提供涵盖时序和空间信息的详细视频描述。模型在 有/无字幕 评测场景下的 Video-MME 表现均超过了 GPT-4VClaude 3.5 Sonnet LLaVA-NeXT-Video-34B等商用闭源模型。
  • 💪强大的 OCR 能力及其他功能。 MiniCPM-V 2.6 可以处理任意长宽比的图像,像素数可达 180 万(如 1344x1344)。在 OCRBench 上取得最佳水平,超过 GPT-4oGPT-4V Gemini 1.5 Pro 等商用闭源模型。基于最新的RLAIF-VVisCPM技术,其具备了可信的多模态行为,在 Object HalBench 上的幻觉率显著低于 GPT-4o GPT-4V,并支持英语、中文、德语、法语、意大利语、韩语等多种语言。
  • 🚀卓越的效率。除了对个人用户友好的模型大小,MiniCPM-V 2.6 还表现出最先进的视觉 token 密度(即每个视觉 token 编码的像素数量)。它仅需 640 token 即可处理 180 万像素图像,比大多数模型少 75%。这一特性优化了模型的推理速度、首 token 延迟、内存占用和功耗。因此,MiniCPM-V 2.6 可以支持 iPad 等终端设备上的高效实时视频理解。
  • 💫易于使用。 MiniCPM-V 2.6 可以通过多种方式轻松使用:(1) llama.cppollama支持在本地设备上进行高效的 CPU 推理,(2) int4GGUF格式的量化模型,有 16 种尺寸,(3) vLLM支持高吞吐量和内存高效的推理,(4) 针对新领域和任务进行微调,(5) 使用Gradio快速设置本地 WebUI 演示,(6) 在线demo即可体验。

在众多开发者心中,MiniCPM 渐渐成了一把衡量端侧模型能力极限的标尺,最新的 MiniCPM-V 2.6 再次抬高了端侧多模态的性能天花板:

  • 8B 参数,单图、多图、视频理解全面超越 GPT-4V
  • 小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。
  • 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cppollamavllm 推理;且支持多种语言

端侧模型首次具备实时视频理解能力,这在全球技术圈反响热烈!MiniCPM-V 2.6 多模态端侧模型,这从天而降的-脑系统,未来一旦植入手机、PCAR、具身机器人、智能座舱,我们日常随身之物开始睁眼看世界,理解真实物理世界的 Video 流。太奇幻了!确实太火爆了!众多大牛成为小钢炮的追星族。面壁小钢炮到底有多受关注?最新的MiniCPM-V 2.6 一发布,就引发了核心开发者圈层的追踪,比如 Hugging Face 开源社区大神 AK ""转数条 MiniCPM-V 2.6 相关信息:

全球各地的优秀开发者,在模型发布后,迫不及待进行了相关测试。图片

社交媒体上关于模型的评价正源源不断增加:

在知乎上,相关话题面壁「小钢炮」系列上新最强端侧多模态模型MiniCPM-V 2.6,其性能如何,有哪些应用场景?短短几天浏览量接近3万!一众优秀开发者将他们的第一手模型实测结果和多模态直观体验整理成详细长文。比如有人拿助盲视频实时理解的例子,描绘它的应用潜力。

甚至有人拿小钢炮2.6到文玩市场进行了实时的玉石鉴定...

 MiniCPM-V 2.6 GitHub 开源地址:

🔗https://github.com/OpenBMB/MiniCPM-V

 MiniCPM-V 2.6 Hugging Face 开源地址:

🔗https://huggingface.co/openbmb/MiniCPM-V-2_6

 llama.cppollamavllm 部署教程地址:

🔗https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
捞月亮的渔民2024/10/11 10:06:48
这MiniCPM-V 2.6简直是智能界的“跨界歌王”啊!8B参数不是盖的,单图多图视频通吃,实时处理还溜得飞起,OCR能力也是杠杠的,多语言无压力,端侧模型的新王者无疑了!GitHub和HuggingFace趋势榜登顶?这只是它征服世界的起点吧!开发者们估计都摩拳擦掌,准备用它来解锁各种神奇应用场景了。未来已来,MiniCPM-V 2.6,让我们拭目以待更多惊喜!
20秒读懂全文
伴读
# 1. 一句话总结文章摘要
MiniCPM-V 2.6,一款基于SigLip-400M和Qwen2-7B构建的8B参数多模态大模型,凭借卓越的单图、多图、视频理解能力和高效的端侧推理性能,在GitHub和HuggingFace趋势榜上名列前茅,成为端侧多模态模型的性能标杆。

# 2. 生成关键词和可能相关的关键词

关键词:
- MiniCPM-V 2.6
-
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群