文章列表-AI魔法学院

文章列表

惊艳！2.77亿参数锻造出Agent+GPT-4V模型组合，领航AI领航机器人、游戏、医疗革新，通用智能时代你准备好了吗？

这个模型能处理文本、图像、动作输入，轻松应对多任务挑战，甚至跨界在机器人、游戏、医疗等领域展现强大实力。

Agent+GPT-4V 大模型

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

Diffusion模型，架构如下所示：其中text encoder采用的是谷歌的Flan-UL2，这个模型的参数量是20B，它和谷歌的T5采用同样的架构，但是比最大的T5模型T5-XXL大了近两倍，当然性能有一个提升

Kandinsky-3 文生图开源模型

可能是国产最强AI，ChatGLM-4来了！

二、智能体最让我感到惊艳的，是定制化功能：创建智能体。

ChatGLM 智普

爆肝两天！ChatGPT+提示词解决知识库目录混乱

- 每年文章的增长速度是多少？

智能分类大模型知识库

做自媒体消息闭塞很致命，巨好用的工具分享

新榜10W+，实时提供各种爆文，对想要入行自媒体，不知道做选题的，可以查看上面的选题，进行模仿创作。

自媒体工具

一位芯片投资人的十年复盘：谁是中国的英伟达｜AI光年

2015年，杨光和前同事白宗义一起创立了耀途资本，布局半导体领域围绕消费电子、汽车电子、数据中心与云计算等应用场景，投资了壁仞科技、瀚博半导体、爱芯元智、云豹智能、Hailo、Vayyar和星宸科技（301536

AI光年芯片投资

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

随着当前多模态模型的发展，它可以同时处理文本和图像，「那么能否将多模态模型应用到RAG系统呢？」

大模型研究

AI写作：一步到位，如何用 AI 生成整篇文章？做自媒体必看！

话不多说，直接上干货！

结构化提示词写作

AI Agent新对决：LangGraph与AutoGen的技术角力

，于是一款新的技术框架：LangGraph应运而生，正式宣布 LangChain 进入多智能体框架领域。

LangGraph AutoGen 对决

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4

该模型在对话式问答和检索增强型生成等能力方面表现出色，在综合评测指标上甚至超越了当前业界顶尖的GPT-4模型。

Llama3-ChatQA-1.5 对话问答模型

AI+大模型在金融行业的应用场景

AI技术之于现有金融行业的赋能是多领域、多环节的。

AI大模型金融

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

中学生能看懂：Sora 原理解读

这就像你在查看世界名胜相册时，尽管照片多种多样，但你依然能通过相同的方式去理解和欣赏它们。

Sora 原理

<...7 8 9 101112 13 14 15 16 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1