首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· Pytorch安装(保姆级教学 真·满血·GPU版)CUDA更新?torch版本?一文全搞定!
· LangChain Agent 原理解析
· 无需翻墙,可合法使用的8款国内AI大模型产品
· AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
· SD入门教程零:应用场景
· 教会AI画汉字(ComfyUI篇)
· 有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
· 100个最强Ai实用工具精讲 - 拒绝焦虑拥抱Ai
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
一文彻底搞懂
多
模
态
-
多
模
态
推理
多
模
态
推理
多
模
态
推理涉及至少两种不同的感知
模
态
,最常见的是视觉和语言。
多模态推理
大模型
开源
阿里云开源通义千问
多
模
态
大
模
型
Qwen-VL,持续推动中国
大
模
型
生
态
建设
在主流的
多
模
态
任务评测和
多
模
态
聊天能力评测中,Qwen-VL取得了远超同等规
模
通用
模
型
的表现。
大模型
OCR
OCR的终极解法——传统算法VS
多
模
态
大
模
型
多
模
态
大
模
型
做 OCR 上面介绍了传统的
大
模
型
分两步处理才能获取识别后的名片信息,那么有没有可能一步识别出结果呢?
OCR
大模型
文字识别
开源
中文版开源Llama 2同时有了语言、
多
模
态
大
模
型
,完全可商用
s=20 语言
模
型
之外,继续开源两个中文
多
模
态
大
模
型
在推出首个开源 Llama2 中文语言
大
模
型
之后,LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本
多
模
态
大
模
型
和图文
大
模
型
开源模型
微软
【全文翻译】微软166页论文解读 GPT-4V:
多
模
态
大
模
型
的黎明
论文摘要
大
型
多
模
态
模
型
(LMMs)通过
多
感官技能,如视觉理解,来扩展
大
型
语言
模
型
(LLMs),以实现更强的通用智能(注意 LMMs 与 LLMs的区别)。
多模态大模型
GPT-4V
文生图
微调
LLM每周速递!
大
模
型
最前沿:
多
模
态
RAG、RAG加速、
大
模
型
Agent、
模
型
微调/对齐
终于又有时间更新文章了,今天继续总结最近一周的研究动
态
,梳理了10篇有关
大
模
型
(LLMs)的最新研究进展,其中涉及涉及
多
模
态
RAG、推理时对齐、
多
模
态
模
型
、
大
模
型
微调、
大
模
型
Agent等热门研究。
大模型
研究
开源
最强国产开源
多
模
态
大
模
型
MiniCPM-V:可识别图片、视频,还可在端侧部署
MiniCPM-V是面向图文理解的端侧
多
模
态
大
模
型
系列。
minicpm
面壁
开源
GLM4 开源了!!!还有
多
模
态
长文本推理:支持最
大
128K 的上下文,GLM-4-9B-Chat-1M
模
型
更是支持高达 1M 的上下文长度。
智普
ChatGLM
多模态
开源
元象首个
多
模
态
大
模
型
XVERSE-V 开源,刷新权威
大
模
型
榜单,支持任意宽高比输入
人类获取的信息83%来自视觉,图文
多
模
态
大
模
型
能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更
大
步伐。
XVERSE-V
多模态大模型
开源
构建开源
多
模
态
RAG系统
在这个新的冒险中,我们将深入研究使用开源
大
型
语言
多
模
态
(LLMM)构建检索增强
型
生成(RAG)系统的过程。
RAG
大模型
开源
OCR终结了?旷视提出可以文档级OCR的
多
模
态
大
模
型
框架Vary,支持中英文,已开源!
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等
多
个步骤—— 这一次,只需一句话命令,
多
模
态
大
模
型
Vary 直接端到端输出结果: 无论是中英文的
大
段文字
OCR
手写
文字识别
被高估的Pika,被低估的
多
模
态
AI
“之前很
多
公司都在卷文本
大
模
型
,GPT-4V 的出现代表
多
模
态
大
模
型
可落地,毫无疑问明年
大
家都会卷
多
模
态
AI ,原因很简单,因为 OpenAI 说明这条路是能够走得通
大模型
多模态
开源
炸裂!百川开源第1个7B
多
模
态
大
模
型
Baichuan-Omni | 能够同时分析图像/视频/音频/文本
在本文中,作者介绍了 Baichuan-Omni,这是第一款开源的 7B
多
模
态
大
语言
模
型
(MLLM),能够同时处理和分析图像、视频、音频和文本的
模
态
,同时提供先进的
模
态
交互体验和强
大
性能。
Baichuan-Omni
多模态大模型
LLM
自己电脑上跑
大
语言
模
型
(LLM)要
多
少内存?
模
型
文件
大
小
模
型
文件
大
小可以通过看[参数量]+[精度]来简单计算。
大语言模型
运行
ChatGLM
chatglm3基础
模
型
多
轮对话微调
base
模
型
去自由地做SFT了。
ChatGLM
微调
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100