首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· M3E 可能是最强大的开源中文嵌入模型
· 大模型能力快速测评极简题目
· 一条价值2W的Prompt,帮你生成提示词的超级提示词
· 一个充满多智能体的数字社会正在浮现,商业的底层逻辑已进入重构倒计时
· 一键部署本地“妙鸭”,证件照,写真照,模特换装全部搞定!
· Stable Diffusion 喂饭教程来啦!价值上万的模特AI换装方法
· ComfyUI 基础教程(一)环境部署和插件安装
· ComfyUI学习笔记:插件安装
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
一文彻底搞懂
多
模
态
-
多
模
态
推理
多
模
态
推理
多
模
态
推理涉及至少两种不同的感知
模
态
,最常见的是视觉和语言。
多模态推理
大模型
开源
GLM4 开源了!!!还有
多
模
态
【https://github.com/THUDM/GLM-4】 高级功能,一应俱全
多
轮对话:GLM-4-9B-Chat 支持流畅的
多
轮对话体验。
智普
ChatGLM
多模态
OCR
OCR的终极解法——传统算法VS
多
模
态
大
模
型
多
模
态
大
模
型做 OCR 上面介绍了传统的大
模
型分两步处理才能获取识别后的名片信息,那么有没有可能一步识别出结果呢?
OCR
大模型
文字识别
开源
构建开源
多
模
态
RAG系统
在这个新的冒险中,我们将深入研究使用开源大型语言
多
模
态
(LLMM)构建检索增强型生成(RAG)系统的过程。
RAG
大模型
开源
阿里云开源通义千问
多
模
态
大
模
型Qwen-VL,持续推动中国大
模
型生
态
建设
Qwen-VL以通义千问70亿参数
模
型Qwen-7B为基座语言
模
型研发,支持图文输入,具备
多
模
态
信息理解能力。
大模型
开源
中文版开源Llama 2同时有了语言、
多
模
态
大
模
型,完全可商用
因此,训练
多
模
态
模
型的重点是如何融合互补不同
模
态
间的信息,并充分利用现有大语言
模
型能力。
开源模型
被高估的Pika,被低估的
多
模
态
AI
多
模
态
AI 正处于爆发前夜。
大模型
多模态
微软
【全文翻译】微软166页论文解读 GPT-4V:
多
模
态
大
模
型的黎明
我们希望这种初步探索将激发未来对下一代
多
模
态
任务制定、新方法来利用和增强 LMMs 以解决实际问题,以及更好地理解
多
模
态
基础
模
型的研究。
多模态大模型
GPT-4V
文生图
开源
最强国产开源
多
模
态
大
模
型MiniCPM-V:可识别图片、视频,还可在端侧部署
MiniCPM-V是面向图文理解的端侧
多
模
态
大
模
型系列。
minicpm
面壁
微调
LLM每周速递!大
模
型最前沿:
多
模
态
RAG、RAG加速、大
模
型Agent、
模
型微调/对齐
终于又有时间更新文章了,今天继续总结最近一周的研究动
态
,梳理了10篇有关大
模
型(LLMs)的最新研究进展,其中涉及涉及
多
模
态
RAG、推理时对齐、
多
模
态
模
型、大
模
型微调、大
模
型Agent等热门研究。
大模型
研究
开源
OCR终结了?旷视提出可以文档级OCR的
多
模
态
大
模
型框架Vary,支持中英文,已开源!
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等
多
个步骤—— 这一次,只需一句话命令,
多
模
态
大
模
型 Vary 直接端到端输出结果: 无论是中英文的大段文字
OCR
手写
文字识别
开源
元象首个
多
模
态
大
模
型 XVERSE-V 开源,刷新权威大
模
型榜单,支持任意宽高比输入
人类获取的信息83%来自视觉,图文
多
模
态
大
模
型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。
XVERSE-V
多模态大模型
开源
炸裂!百川开源第1个7B
多
模
态
大
模
型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
作者提出了一种有效的
多
模
态
训练
模
式,从 7B
模
型开始,经过两个阶段的
多
模
态
对齐和
多
任务微调,分别针对音频、图像、视频和文本
模
态
。
Baichuan-Omni
多模态大模型
零一万物
零一万物API开放平台出场!通用Chat
多
模
态
通通开放,还有200K超长上下文版本
§ Yi-VL-Plus:
多
模
态
模
型,支持文本、视觉
多
模
态
输入,中文图表体验超过GPT-4V。
零一万物
YI
李开复
Agent
Coze
多
智能体(Multi-Agents)
模
式体验!
创建
多
智能体 创建完bot之后,就会进入配置页面,随后点击编排右侧的智能体下拉菜单,选择“
多
智能体
模
式”。
Coze
多智能体
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100