首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 第一性原理以及第一性原理是怎么帮马斯克成为首富的
· ChatGLM智谱清言
· 从第一性原理看大模型Agent技术
· Meta无限长文本大模型来了:参数仅7B,已开源
· StableDiffusion模型推荐系列(功能型)
· Github上Star数最多的大模型应用基础服务:Dify 深度解读
· 国内法律类大模型介绍
· 阿里的AI一键换衣(AnyDoor)工具来了
· prompt必须知道的26条军规
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
工具
OCRmyPDF—可智能识别PDF文本和图片信息的工具
OCRmyPDF向扫描的PDF文件添加了
OCR
文本层,使它们可以被搜索或复制粘贴。
OCRmyPDF
工具
RAG
LangChain - RAG: 拿什么「降伏」PDF 中的 Table 类型数据
解决的方式不外乎针对 table 信息做专门的保存、解码、embedding 处理,如果是 image 那就只能上
OCR
了,信息保存部分 LangChain 前两个月发布的 MultiVectorRetriever
大模型
LangChain
RAG
LLM
ChatPDF | LLM文档对话 | pdf解析关键问题
接下来用
OCR
工具来对标题区块提取文字即可,用上述工具都可以。
大模型
金融
金融行业中 Fintech 的应用场景
场景4、智能识别
OCR
识别身份证及银行卡 在业务票据整理过程中,可以通过图像识别等技术完成数据的收集,比如通过
OCR
完成身份证的识别,银行承兑汇票,银行卡等 20231123162725 银行体系里面也有一些图像识别的任务
Fintech
金融
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
计算机视觉 任务(英文) 任务(中文) 任务说明
ocr
-detection
开源
大模型
最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了 MiniCPM-Llama3-V 2.5 的
OCR
minicpm
面壁
Flowith:革新你的工作方式,体验节点式 AI 的超流畅生产力
文件上传与分析:支持 PDF、DOC、EXCEL 等多种文件格式的上传和分析,内置
OCR
Flowith
GPT
生产力工具
RAG
Rerank——RAG中百尺竿头更进一步的神器,从原理到解决方案
· 优化内容提取的方法:从源头解决内容提取的有效性,包括文本内容、表格内容(保留制表符)和图片内容(
OCR
RAG
检索增强
大模型
对于大模型RAG技术的一些思考
能够对Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation10类区域进行检测,统一了
OCR
RAG
大模型
斯坦福宣布前端开发要失业了?!一张截图生成代码,64%优于原网页!
文本增强提示方法通过从原始网页中提取所有文本元素并附加到指令提示之后,减轻了模型进行
OCR
的难度。
设计转代码
大模型
开源
5个最佳开源RPA框架!
它还提供了数十个命令,如自定义代码执行,图像识别和
OCR
等。
智能自动化
大模型
RPA框架
开源
5个最佳开源RPA框架
它还提供了数十个命令,如自定义代码执行,图像识别和
OCR
等。
开源模型
智能自动化
大模型
大模型微调经验汇总---LLM finetuning 踩坑经验之谈
对于一些机器生成的文本或
OCR
识别错误的文本,质量不高,由没有什么逻辑性,虽然比较难以检测,但是还是会有一些工具能做这样的事情,比如ctrl-detector。
大模型
人工智能
大模型
大模型业务应用中数据准备的要求、难点及解决思路
简单来说,感知类场景就是“能听会看”,指的是有明确的规则,不需要理解复杂的逻辑即可完成任务的场景,比如
OCR
图片识别、语音转写、文本情绪判断等;而认知类场景要求的是“能思考、会创造”,需要在感知场景要素的基础上
大模型
【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision
ensp; Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在
OCR
OpenAI
自然语言监督
<
1
2
3
>
1
2
4
5
6
7
8
9
100