文章列表-AI魔法学院

文章列表

OCR的终极解法——传统算法VS多模态大模型

这些模型通常是大型的神经网络，它们经过大量数据的训练，能够捕捉不同模态之间的关联，并执行跨模态的任务。

OCR 大模型文字识别

LLM大模型推理输出生成方式总结

Greedy Search 方式：每一时间步都选择概率最大的词。

大模型

XX来信：智能体设计模式2：Reflection

亲爱的朋友们, 之前我介绍了AI智能体工作流的四种设计模式，我相信它们将在今年推动重大进展：Reflection, Tool use, Planning and

Reflection 智能体

被高估的Pika，被低估的多模态AI

“之前很多公司都在卷文本大模型，GPT-4V 的出现代表多模态大模型可落地，毫无疑问明年大家都会卷多模态 AI ，原因很简单，因为 OpenAI 说明这条路是能够走得通

大模型多模态

清华、面壁智能发布：主动式Agent 2.0

· 目前大多数Agent是被动式的，限制了它们在需要预见性和自主决策的场景中的有效性。

Agent 2.0 大模型

自己电脑上跑大语言模型（LLM）要多少内存？

我到底要多少内存才够？

大语言模型运行

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，领航AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

这个模型能处理文本、图像、动作输入，轻松应对多任务挑战，甚至跨界在机器人、游戏、医疗等领域展现强大实力。

Agent+GPT-4V 大模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

总结！大模型微调（Tuning）的常见方法

这是通过在与任务相关的数据集上训练模型来完成的。

微调大模型

LLM Agent最常见的九种设计模式(图解+代码)

如果说 ReAct更适合完成“厨房拿胡椒粉”的任务，那么 Plan & solve 更适合完成“西红柿炒鸡蛋”的任务：你需要计划，并且过程中计划可能会变化（比如你打开冰箱发现没有西红柿时，你将购买西红柿作为新的步骤加入计划

LLM Agent 图解

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

据项目介绍，Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集，输入格式严格遵循 llama-2-chat 格式，兼容适配所有针对原版 llama

开源模型

生成式AI与大语言模型的区别

采用生成式人工智能的艺术家可以尝试调整多种技术。

生成式AI 大语言模型区别

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论~

尤其是作为聊天应用来说，在用户输入之后，大模型可以在多短的时间内给出回应对于用户体验来说影响巨大。

大模型

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

此外，OmniGen可以处理经典的计算机视觉任务，将其转换为图像生成任务。

大模型研究

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1