文章列表-AI魔法学院

文章列表

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

知识树：一个方法，教你构建「终身知识体系」

——《认知红利》看过的每一本书、每一条知识，写的每一篇笔记，如果都能被分门别类地永久储存，还能有一键搜索功能，等需要用的时候，还能有个图书管理员帮我迅速找到，那该多好。

大模型

SEO知识点入门

想要真是真正提升SEO能力和知识，一定要有网站，个人建议SEOer最好要有自己的个人网站。

达摩院SPACE对话大模型：知识注入与知识利用

②分角色多轮次，至少两个参与主体，轮次间存在省略、指代、状态继承、状态遗忘等。

大模型

OCR的终极解法——传统算法VS多模态大模型

命名实体识别命名实体识别（Named Entity Recognition, NER）是自然语言处理（Natural Language Processing, NLP）的一个分支，它的任务是识别文本中具有特定意义的实体

OCR 大模型文字识别

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

《构建个人知识图谱》：让 AIGC 帮你自动构建知识图谱

还记得我们的知识图谱节点上有一个「描述」字段吧，这个是为了记录这个知识结点的介绍信息。

提示词文生图 AIGC

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

GLM4 开源了！！！还有多模态

多模态能力，视觉与语言的融合 GLM-4V-9B 是基于 GLM-4-9B 的多模态模型，具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在多模态评测中表现超越了多个竞争对手

智普 ChatGLM 多模态

Threejs: 数字人生成金色动态粒子效果

昨天的文章提到通过修改数字人的材质做全息投影仪的动态效果，今天分享一下生成金色动态粒子人的代码，效果图如下：效果中还包含多个粒子效果的动态转换，有了这个，再加上摄像头，就可以完全模拟亚运会的数字人效果了

Threejs 数字人

体验完阿里的EMO模型，我emo了

简单来说，EMO（Emote Portrait Alive）是一个AI肖像视频生成系统，能够通过输入单一的参考图像，生成具有一定表现力的面部标签和各种头部姿态。

EMO 文生图

构建开源多模态RAG系统

RAG通过整合检索机制解决了这个问题，从外部知识库中提取相关事实，确保回答在语言上正确且在事实上准确。

RAG 大模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体，相比上一代的训练数据增加了 40%，在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现，且支持多个语种

开源模型

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

实时语音识别：听写文本并获得即时转录。

AI语音克隆实时语音识别

Stable Diffusion

Stable Diffusion基础：ControlNet之身份标识

本文给大家分享一个新的ControlNet类型：Instant ID，翻译为身份标识，核心能力是由国内的小红书团队开发的。

ControlNet 文生图

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1