首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· MCP服务介绍及应用场景报告-来自Manus
· 理解 o3 及其技术分析
· ChatLaw
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 揭秘数字人困境:代理商亏钱、直播屡被封、刘润也不用了
· AI 爆文写作:如何用GPT写出10万+?这篇五千字长文给你答案
· Math.now
· 变天了,AI可以一键生成中文海报了......
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
大模型业务应用中数据准备的要求、难点及解决思路
简单来说,感知类场景就是“能听会看”,指的是有明确的规则,不需要理解复杂的逻辑即可完成任务的场景,比如
OCR
图片识别、语音转写、文本情绪判断等;而认知类场景要求的是“能思考、会创造”,需要在感知场景要素的基础上
大模型
【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision
ensp; Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在
OCR
OpenAI
自然语言监督
大模型
大模型时代 AI 技术在金融行业的创新应用
随着场景复杂度的提升和多模态模型以及融合模型的出现,出现了更多
OCR
结构化数据与自然语言数据结合的场景,以及机器学习预测与运筹优化相匹配的场景。
大模型
金融
OpenAI
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
在 MiniCPM 2B 基础上,2024 年 4 月 11 日,面壁又推出了新一代端侧旗舰大模型系列:显著增强
OCR
能力、甚至部分能力比肩Gemini-Pro的2.8B多模态模型MiniCPM-V
Grok-1
开源模型
开源
接私活必看的11个开源项目
功能丰富:支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、
OCR
识别在内的20余项功能
私活
开源项目
大模型
从零开始了解AI大模型 - 技术篇:万字深度好文人话说大模型技术
这个模型被广泛应用于各种任务,包括将一种语言翻译成另一种语言的翻译工作、将图片中的文字变成可读的文字的
OCR
(光学字符识别)任务等等。
大模型
万字长文-大语言模型指令调优综述
MultiModal-GPT 是通过对OpenFlamingo (9B)开放数据集上对各种创建的视觉指令数据进行微调来训练的,包括VQA、图像字幕、视觉推理、文本
OCR
和视觉对话。
大语言模型
大模型
从第一性原理看大模型Agent技术
引入多模态输入后,我们还要解决一个自上而下的机制问题,就是Projection启发的这个点,
OCR
嫁接术一定会在某类任务存在缺陷。
大模型
agent
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理!
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agents
大模型
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agent
大模型
人工智能
大模型
【全文翻译】微软166页论文解读 GPT-4V:多模态大模型的黎明
利用其强大的光学字符识别(
OCR
)能力,GPT-4V 准确识别了生成图像中渲染的文本,例如“Azuz Research”、“ARAUIE”和“Azure Azure”,并将它们与文本提示要求“Azure
多模态大模型
GPT-4V
文生图
<
1
2
3
>
1
2
4
5
6
7
8
9
100