首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· 理解 o3 及其技术分析
· 深度体验3天后,我把腾讯这款copilot锁进了程序坞
· 使用知识图谱提高RAG的能力,减少大模型幻觉
· AI写作:一步到位,如何用 AI 生成整篇文章?做自媒体必看!
· 掌握这10个AI 工具用1小时完成别人1周的工作
· Stable Diffusion 30种采样器全解!
· 基于 OpenAI Whisper 模型的实时语音转文字工具
· 弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
大模型业务应用中数据准备的要求、难点及解决思路
简单来说,感知类场景就是“能听会看”,指的是有明确的规则,不需要理解复杂的逻辑即可完成任务的场景,比如
OCR
图片识别、语音转写、文本情绪判断等;而认知类场景要求的是“能思考、会创造”,需要在感知场景要素的基础上
大模型
【CLIP系列Paper解读】CLIP: Learning Transferable Visual Models From Natural Language Supervision
ensp; Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在
OCR
OpenAI
自然语言监督
大模型
大模型时代 AI 技术在金融行业的创新应用
随着场景复杂度的提升和多模态模型以及融合模型的出现,出现了更多
OCR
结构化数据与自然语言数据结合的场景,以及机器学习预测与运筹优化相匹配的场景。
大模型
金融
OpenAI
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
在 MiniCPM 2B 基础上,2024 年 4 月 11 日,面壁又推出了新一代端侧旗舰大模型系列:显著增强
OCR
能力、甚至部分能力比肩Gemini-Pro的2.8B多模态模型MiniCPM-V
Grok-1
开源模型
开源
接私活必看的11个开源项目
功能丰富:支持包括PDF批量合并、拆分、添加水印、加密/解密、提取、
OCR
识别在内的20余项功能
私活
开源项目
大模型
从零开始了解AI大模型 - 技术篇:万字深度好文人话说大模型技术
这个模型被广泛应用于各种任务,包括将一种语言翻译成另一种语言的翻译工作、将图片中的文字变成可读的文字的
OCR
(光学字符识别)任务等等。
大模型
万字长文-大语言模型指令调优综述
MultiModal-GPT 是通过对OpenFlamingo (9B)开放数据集上对各种创建的视觉指令数据进行微调来训练的,包括VQA、图像字幕、视觉推理、文本
OCR
和视觉对话。
大语言模型
大模型
从第一性原理看大模型Agent技术
引入多模态输入后,我们还要解决一个自上而下的机制问题,就是Projection启发的这个点,
OCR
嫁接术一定会在某类任务存在缺陷。
大模型
agent
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理!
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agents
大模型
Agent
AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地 公司深耕NLP、知识图谱、
OCR
、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务
AI
Agent
大模型
人工智能
大模型
【全文翻译】微软166页论文解读 GPT-4V:多模态大模型的黎明
利用其强大的光学字符识别(
OCR
)能力,GPT-4V 准确识别了生成图像中渲染的文本,例如“Azuz Research”、“ARAUIE”和“Azure Azure”,并将它们与文本提示要求“Azure
多模态大模型
GPT-4V
文生图
<
1
2
3
>
1
2
4
5
6
7
8
9
100