首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· MCP服务介绍及应用场景报告-来自Manus
· 理解 o3 及其技术分析
· ChatLaw
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 揭秘数字人困境:代理商亏钱、直播屡被封、刘润也不用了
· AI 爆文写作:如何用GPT写出10万+?这篇五千字长文给你答案
· Math.now
· 变天了,AI可以一键生成中文海报了......
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
生成式AI与大
语
言模型的区
别
如果它们听起来像是可比的,可能更像是生成模型人工智能对大型模型人工智能,或
者
可能是生成式
语
言模型对大型
语
言模型。
生成式AI
大语言模型
区别
视频
Wunjo AI: 合成和克隆英
语
/俄
语
/中文
语
音,实时
语
音
识
别
,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰
主要特征
语
音合成:轻松将文本转换为类似人类的
语
音。
AI语音克隆
实时语音识别
Transformer
TrOCR——基于transformer模型的OCR手写文字
识
别
前期我们使用大量的篇幅介绍了手写数字
识
别
与手写文字
识
别
,当然那里主要使用的是CNN卷积神经网络,利用CNN卷积神经网络来训练文字
识
别
的模型。
OCR
手写
文字识别
教程
openpose原理及安装教程(姿态
识
别
)
OpenPose是一个用于实时多人姿态估计的开源库,它可以检测图像或视频中的人体关键点,并且能够
识
别
不同的身体部位和动作。
行为识别
姿态识别
「
语
音转换新速度」— 探秘Whisper JAX的70倍速提升
在AI的众多分支中,
语
音
识
别
技术的突破性进展尤为引人瞩目。
Whisper
语音识别
开源
来个优秀的开源人脸
识
别
项目!
虹膜
识
别
技术通过全自动照相机寻找并聚焦虹膜,实现高精度
识
别
。
人脸识别
开源项目
开源
人脸
识
别
的开源的项目有哪些?
OpenCV:OpenCV(Open Source Computer Vision Library)是一个广泛使用的计算机视觉库,提供了许多人脸
识
别
算法和工具。
人脸识别
开源项目
OCR
14.6K star!最好用的OCR文字
识
别
项目,没有之一!
伙伴们,平时都会用到文字
识
别
吧?
Umi-OCR
开源项目
文字识别
开源
几款开源的OCR
识
别
项目,收藏备用
naptha/tesseract.js.git PaddleOCR PaddleOCR是百度开源一套OCR,旨在打造一套丰富、领先、且实用的OCR工具库,助力开发
者
训练出更好的模型
OCR
工具
OCRmyPDF—可智能
识
别
PDF文本和图片信息的工具
如果需要,可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎
识
别
超过
OCRmyPDF
工具
开源
OCR是什么以及推荐几款开源中文OCR
识
别
软件
光学字符
识
别
(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析
识
别
处理,获取文字及版面信息的过程。
OCR
OCR
Windrecorder:连续记录屏幕内容,通过OCR技术
识
别
记录内容
它的所有能力(录制、
识
别
处理、存储回溯等)完全运行在本地,无需联网,不上传任何数据,只做应该做的事。
Windrecorder
录屏
企业
大
语
言模型LLM和知
识
图谱KG增强的企业搜索应用
它是一个理解
语
言模式的模型——不是
语
言本身,而是
语
言模式。
开源模型
大模型
最强国产开源多模态大模型MiniCPM-V:可
识
别
图片、视频,还可在端侧部署
GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现,并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多
语
言支持以及端侧部署等诸多特性
minicpm
面壁
Prompt
大
语
言模型定制化应用的三种方式:Prompt engineering、Fine tuning、Pre-trainning的区
别
以下是它们的区
别
和使用场景: Prompt Engineering(提示工程):Prompt Engineering是通过设计和优化输入的提示或指令,以引导模型生成特定类型的输出。
大模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100