文章列表-AI魔法学院

文章列表

LangChain - RAG: 拿什么「降伏」PDF 中的 Table 类型数据

解决的方式不外乎针对 table 信息做专门的保存、解码、embedding 处理，如果是 image 那就只能上 OCR 了，信息保存部分 LangChain 前两个月发布的 MultiVectorRetriever

大模型 LangChain RAG

OCRmyPDF—可智能识别PDF文本和图片信息的工具

OCRmyPDF向扫描的PDF文件添加了OCR文本层，使它们可以被搜索或复制粘贴。

OCRmyPDF 工具

ChatPDF | LLM文档对话 | pdf解析关键问题

接下来用OCR工具来对标题区块提取文字即可，用上述工具都可以。

大模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

在多模态对齐预训练阶段，作者整理了包括图像描述、交错数据、OCR数据和图像文本数据的广泛训练语料库。

Baichuan-Omni 多模态大模型

金融行业中 Fintech 的应用场景

场景4、智能识别 OCR识别身份证及银行卡在业务票据整理过程中，可以通过图像识别等技术完成数据的收集，比如通过OCR完成身份证的识别，银行承兑汇票，银行卡等 20231123162725 银行体系里面也有一些图像识别的任务

Fintech 金融

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

计算机视觉任务（英文）任务（中文）任务说明 ocr-detection

开源

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR

minicpm 面壁

Flowith：革新你的工作方式，体验节点式 AI 的超流畅生产力

文件上传与分析：支持 PDF、DOC、EXCEL 等多种文件格式的上传和分析，内置 OCR

Flowith GPT 生产力工具

Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案

· 优化内容提取的方法：从源头解决内容提取的有效性，包括文本内容、表格内容（保留制表符）和图片内容（OCR

RAG 检索增强

对于大模型RAG技术的一些思考

能够对Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation10类区域进行检测，统一了OCR

RAG 大模型

星标破万！小钢炮2.6登顶GitHub，Hugging Face TOP3，燃爆开源社区！

💪 强大的 OCR 能力及其他功能。

MiniCPM-V 2.6 大模型

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

文本增强提示方法通过从原始网页中提取所有文本元素并附加到指令提示之后，减轻了模型进行OCR的难度。

设计转代码大模型

5个最佳开源RPA框架！

它还提供了数十个命令，如自定义代码执行，图像识别和OCR等。

智能自动化大模型 RPA框架

5个最佳开源RPA框架

它还提供了数十个命令，如自定义代码执行，图像识别和OCR等。

开源模型智能自动化

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

对于一些机器生成的文本或OCR识别错误的文本，质量不高，由没有什么逻辑性，虽然比较难以检测，但是还是会有一些工具能做这样的事情，比如ctrl-detector。

大模型人工智能

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1