文章列表-AI魔法学院

文章列表

一文彻底搞懂多模态 - 多模态推理

多模态推理多模态推理涉及至少两种不同的感知模态，最常见的是视觉和语言。

多模态推理大模型

OpenAI视频模型Sora的推理生成成本多高？

（Video Encoder/Decoder 的计算量相比 DiT 可以忽略不计） Sora 的模型多大呢？

Sora 推理算力

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。

大模型

GLM4 开源了！！！还有多模态

今天，我们要分享一个令人震撼的消息：智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本——GLM-4-9B，现已全面开源！

智普 ChatGLM 多模态

OCR的终极解法——传统算法VS多模态大模型

多模态大模型做 OCR 上面介绍了传统的大模型分两步处理才能获取识别后的名片信息，那么有没有可能一步识别出结果呢？

OCR 大模型文字识别

构建开源多模态RAG系统

什么是多模态？

RAG 大模型

【AI代理】多代理模式之多任务分配&信息传递

昨天探索了多任务模式，让系统根据用户的输入信息自动找到对应的代理进行处理。

多任务模式分配传递

【AI代理】扣子，开始探索多代理模式

而多代理模式又有什么作用呢？

多代理模式大模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体，相比上一代的训练数据增加了 40%，在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现，且支持多个语种

开源模型

被高估的Pika，被低估的多模态AI

多模态 AI 正处于爆发前夜。

大模型多模态

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

多模态模型的通用性不可避免地要求系统能够处理不同输入模态的任意组合。

多模态大模型 GPT-4V 文生图

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

大模型推理能力增强方法总结

CoT 就是把一个多步骤推理问题，分解成很多个中间步骤，分配给更多的计算量，生成更多的 token，再进行求解。

推理能力大模型

阿里推理模型来了！Marco-o1 发布即开源

阿里巴巴刚刚发布了一款全新的开源推理模型Marco-o1，它不仅专注于标准答案领域，更致力于解决开放性问题。

Marco-o1 推理模型

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

终于又有时间更新文章了，今天继续总结最近一周的研究动态，梳理了10篇有关大模型(LLMs)的最新研究进展，其中涉及涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门研究。

大模型研究

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1