首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· AI换脸:FaceFusion和Roop在线版修复,支持手机,平板,低配电脑!
· 一文汇总市面上所有prompts提示词框架!
· 最强国产开源多模态大模型MiniCPM-V:可识别图片、视频,还可在端侧部署
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· Python程序混淆和打包exe文件流程和方法
· 用GPT4创建一部连环画故事
· 你的下一个浏览器,可以是豆包电脑版!
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· 万物皆可接入DeepSeek,44家接入R1的国产平台超详细大盘点
· 用 Stable Diffusion 10分钟实现电商模特换装/换模特
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
OCR
【重磅推荐】PaddleOCR:超越人眼
识
别
率的AI
文
字
识
别
神器!
二、PaddleOCR功能特点 1.高准确率:PaddleOCR的算法经过精心设计和优化,可准确
识
别
不同
字
体、
字
号、
字
形的
文
字
图像,实现超越人眼
识
别
率的准确率。
PaddleOCR
文字识别
Transformer
TrOCR——基于transformer模型的OCR手写
文
字
识
别
前期我们使用大量的篇幅介绍了手写数
字
识
别
与手写
文
字
识
别
,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练
文
字
识
别
的模型。
OCR
手写
文字识别
OCR
14.6K star!最好用的OCR
文
字
识
别
项目,没有之一!
伙伴们,平时都会用到
文
字
识
别
吧?
Umi-OCR
开源项目
文字识别
语音
Whisper对于中
文
语音
识
别
与转写中
文
文
本优化的实践(Python3.10)
中
文
文
本标注优化 Whisper经常被人诟病的一点是对中
文
语音转写后标点符号的支持不够完备。
Whisper
语音优化
工具
OCRmyPDF—可智能
识
别
PDF
文
本和图片信息的工具
•验证输入和输出
文
件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎
识
别
超过100种语言 •保护您的私人数据安全
OCRmyPDF
工具
OpenAI
OpenAI大动作:Whisper large-v3重塑语音
识
别
技术
这款最新的自动语音
识
别
模型不仅在多语言
识
别
方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。
Whisper
语音识别
Fastwhisper + Pyannote 实现 ASR + 说话者
识
别
前言 最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中
文
普通话效果最好的应该是阿里的modelscope上的中
文
模型了,英
文
的话,还是非whisper莫属了,而且
faster-whisper
语者识别
ASR
开源
OCR是什么以及推荐几款开源中
文
OCR
识
别
软件
光学
字
符
识
别
(Optical Character Recognition, OCR)是指对
文
本资料的图像
文
件进行分析
识
别
处理,获取
文
字
及版面信息的过程。
OCR
动作
识
别
模型有哪些
动作
识
别
模型主要有: · TWO-STREAM CNN:网络顾名思义分为两个部分,一部分处理RGB图像,一部分处理光流图像。
动作识别
模型
开源
十大开源语音
识
别
项目
Automatic Speech Recognition(ASR)是一项自动语音
识
别
技术,其目标是通过计算机自动将人类口头语音转录为
文
本。
语音识别
开源项目
OpenAI
【语音
识
别
】OpenAI语音力作Whisper
这么多的标注数据使得我们可以直接在 有监督 语音
识
别
任务上预训练Whisper,从标注音频转录数据中直接习得语音到
文
本的映射。
语音转文字
whisper
教程
openpose原理及安装教程(姿态
识
别
)
OpenPose是一个用于实时多人姿态估计的开源库,它可以检测图像或视频中的人体关键点,并且能够
识
别
不同的身体部位和动作。
行为识别
姿态识别
大模型
OCR终结了?旷视提出可以
文
档级OCR的多模态大模型框架Vary,支持中英
文
,已开源!
以往这一任务需要
文
本
识
别
、布局检测和排序、公式表格处理、
文
本清洗等多个步骤—— 这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果: 无论是中英
文
的大段
文
字
OCR
手写
文字识别
语音
Insanely Fast Whisper:超快的Whisper语音
识
别
脚本
这篇
文
章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。
音频
Whisper
开源
来个优秀的开源人脸
识
别
项目!
通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合,将人体固有的生理特征或行为特征收集起来,进行取样、数
字
化处理和分析。
人脸识别
开源项目
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100