文章列表-AI魔法学院

文章列表

大模型业务应用中数据准备的要求、难点及解决思路

简单来说，感知类场景就是“能听会看”，指的是有明确的规则，不需要理解复杂的逻辑即可完成任务的场景，比如OCR图片识别、语音转写、文本情绪判断等；而认知类场景要求的是“能思考、会创造”，需要在感知场景要素的基础上

大模型

【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision

ensp; Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好，比如在OCR

OpenAI 自然语言监督

大模型时代 AI 技术在金融行业的创新应用

随着场景复杂度的提升和多模态模型以及融合模型的出现，出现了更多 OCR 结构化数据与自然语言数据结合的场景，以及机器学习预测与运筹优化相匹配的场景。

大模型金融

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

在 MiniCPM 2B 基础上，2024 年 4 月 11 日，面壁又推出了新一代端侧旗舰大模型系列：显著增强OCR能力、甚至部分能力比肩Gemini-Pro的2.8B多模态模型MiniCPM-V

Grok-1 开源模型

接私活必看的11个开源项目

功能丰富：支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、OCR识别在内的20余项功能

私活开源项目

从零开始了解AI大模型 - 技术篇：万字深度好文人话说大模型技术

这个模型被广泛应用于各种任务，包括将一种语言翻译成另一种语言的翻译工作、将图片中的文字变成可读的文字的OCR（光学字符识别）任务等等。

大模型

万字长文-大语言模型指令调优综述

MultiModal-GPT 是通过对OpenFlamingo (9B)开放数据集上对各种创建的视觉指令数据进行微调来训练的，包括VQA、图像字幕、视觉推理、文本OCR和视觉对话。

大语言模型

从第一性原理看大模型Agent技术

引入多模态输入后，我们还要解决一个自上而下的机制问题，就是Projection启发的这个点，OCR嫁接术一定会在某类任务存在缺陷。

大模型 agent

AI Agent行业深度：框架拆解、应用方向、应用领域及相关公司深度梳理！

4、拓尔思：“拓天大模型”发布，AIGC业务加速进展及落地公司深耕NLP、知识图谱、OCR、图像视频结构化等多模态内容处理底层技术，建立完整多模态人工智能产品体系，为客户提供文本、音视频、多模态等全栈服务

AI Agents 大模型

AI Agent行业深度：框架拆解、应用方向、应用领域及相关公司深度梳理

4、拓尔思：“拓天大模型”发布，AIGC业务加速进展及落地公司深耕NLP、知识图谱、OCR、图像视频结构化等多模态内容处理底层技术，建立完整多模态人工智能产品体系，为客户提供文本、音视频、多模态等全栈服务

AI Agent 大模型人工智能

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

利用其强大的光学字符识别（OCR）能力，GPT-4V 准确识别了生成图像中渲染的文本，例如“Azuz Research”、“ARAUIE”和“Azure Azure”，并将它们与文本提示要求“Azure

多模态大模型 GPT-4V 文生图

<1 23>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1