首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
OCR
【重磅推荐】PaddleOCR:超越人眼
识
别
率的AI
文
字
识
别
神器!
二、PaddleOCR功能特点 1.高准确率:PaddleOCR的算法经过精心设计和优化,可准确
识
别
不同
字
体、
字
号、
字
形的
文
字
图像,实现超越人眼
识
别
率的准确率。
PaddleOCR
文字识别
Transformer
TrOCR——基于transformer模型的OCR手写
文
字
识
别
前期我们使用大量的篇幅介绍了手写数
字
识
别
与手写
文
字
识
别
,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练
文
字
识
别
的模型。
OCR
手写
文字识别
OCR
14.6K star!最好用的OCR
文
字
识
别
项目,没有之一!
伙伴们,平时都会用到
文
字
识
别
吧?
Umi-OCR
开源项目
文字识别
语音
Whisper对于中
文
语音
识
别
与转写中
文
文
本优化的实践(Python3.10)
中
文
文
本标注优化 Whisper经常被人诟病的一点是对中
文
语音转写后标点符号的支持不够完备。
Whisper
语音优化
工具
OCRmyPDF—可智能
识
别
PDF
文
本和图片信息的工具
•验证输入和输出
文
件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎
识
别
超过100种语言 •保护您的私人数据安全
OCRmyPDF
工具
OpenAI
OpenAI大动作:Whisper large-v3重塑语音
识
别
技术
这款最新的自动语音
识
别
模型不仅在多语言
识
别
方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。
Whisper
语音识别
Fastwhisper + Pyannote 实现 ASR + 说话者
识
别
前言 最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中
文
普通话效果最好的应该是阿里的modelscope上的中
文
模型了,英
文
的话,还是非whisper莫属了,而且
faster-whisper
语者识别
ASR
开源
OCR是什么以及推荐几款开源中
文
OCR
识
别
软件
光学
字
符
识
别
(Optical Character Recognition, OCR)是指对
文
本资料的图像
文
件进行分析
识
别
处理,获取
文
字
及版面信息的过程。
OCR
动作
识
别
模型有哪些
动作
识
别
模型主要有: · TWO-STREAM CNN:网络顾名思义分为两个部分,一部分处理RGB图像,一部分处理光流图像。
动作识别
模型
开源
十大开源语音
识
别
项目
Automatic Speech Recognition(ASR)是一项自动语音
识
别
技术,其目标是通过计算机自动将人类口头语音转录为
文
本。
语音识别
开源项目
OpenAI
【语音
识
别
】OpenAI语音力作Whisper
这么多的标注数据使得我们可以直接在 有监督 语音
识
别
任务上预训练Whisper,从标注音频转录数据中直接习得语音到
文
本的映射。
语音转文字
whisper
教程
openpose原理及安装教程(姿态
识
别
)
OpenPose是一个用于实时多人姿态估计的开源库,它可以检测图像或视频中的人体关键点,并且能够
识
别
不同的身体部位和动作。
行为识别
姿态识别
大模型
OCR终结了?旷视提出可以
文
档级OCR的多模态大模型框架Vary,支持中英
文
,已开源!
以往这一任务需要
文
本
识
别
、布局检测和排序、公式表格处理、
文
本清洗等多个步骤—— 这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果: 无论是中英
文
的大段
文
字
OCR
手写
文字识别
语音
Insanely Fast Whisper:超快的Whisper语音
识
别
脚本
这篇
文
章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。
音频
Whisper
开源
来个优秀的开源人脸
识
别
项目!
通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合,将人体固有的生理特征或行为特征收集起来,进行取样、数
字
化处理和分析。
人脸识别
开源项目
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100