文章列表-AI魔法学院

文章列表

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

OCR的终极解法——传统算法VS多模态大模型

多模态大模型做 OCR 上面介绍了传统的大模型分两步处理才能获取识别后的名片信息，那么有没有可能一步识别出结果呢？

OCR 大模型文字识别

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

s=20 语言模型之外，继续开源两个中文多模态大模型在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型

开源模型

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

论文摘要大型多模态模型（LMMs）通过多感官技能，如视觉理解，来扩展大型语言模型（LLMs），以实现更强的通用智能（注意 LMMs 与 LLMs的区别）。

多模态大模型 GPT-4V 文生图

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

人类获取的信息83%来自视觉，图文多模态大模型能感知更丰富和精确的真实世界信息，构建更全面的认知智能，从而向AGI（通用人工智能）迈出更大步伐。

XVERSE-V 多模态大模型

GLM4 开源了！！！还有多模态

长文本推理：支持最大 128K 的上下文，GLM-4-9B-Chat-1M 模型更是支持高达 1M 的上下文长度。

智普 ChatGLM 多模态

构建开源多模态RAG系统

在这个新的冒险中，我们将深入研究使用开源大型语言多模态（LLMM）构建检索增强型生成（RAG）系统的过程。

RAG 大模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

被高估的Pika，被低估的多模态AI

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态 AI ，原因很简单，因为 OpenAI 说明这条路是能够走得通

大模型多模态

自己电脑上跑大语言模型（LLM）要多少内存？

模型文件大小模型文件大小可以通过看[参数量]+[精度]来简单计算。

大语言模型运行

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

MoveNet是Google在2021年5月推出的一款轻量化姿态估计模型，集成在MediaPipe当中，出来至今已经一年多了，但是似乎相关的技术解读比较少，最近正好调研到仔细研究了一下感觉挺有意思的，所以更新一期解读

MoveNet-SinglePose Google 模型

chatglm3基础模型多轮对话微调

base模型去自由地做SFT了。

ChatGLM 微调

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

，导致模型总参数达到了11.9B，这应该是目前最大的开源文生图模型。

Kandinsky-3 文生图开源模型

Ollama最新更新v0.1.33，实现了多并发可同时与多个模型聊天对话！

上周，Ollama进行了v0.1.33版本更新，为本地部署的开源大型语言模型（LLMs）带来了重大改进。

ollama 语言大模型聊天

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1