文章列表-AI魔法学院

文章列表

OCR的终极解法——传统算法VS多模态大模型

命名实体识别技术可以基于规则、基于统计或使用机器学习模型，包括最近流行的深度学习模型，如循环神经网络（RNNs）、长短时记忆网络

OCR 大模型文字识别

openpose原理及安装教程（姿态识别）

OpenPose基于深度学习和计算机视觉技术，采用了卷积神经网络（CNN）来实现对人体姿态的准确识别。

行为识别姿态识别

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。

大模型

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

前言说起业务落地级别的姿态估计算法方案，大家基本上的共识都是top-down范式，也就是det+pose的形式，先由一个轻量级的目标检测模型提供bbox，再依次送入pose模型进行单人姿态估计

MoveNet-SinglePose Google 模型

AI落地里那些假的机会

不具备跨越可能的使用价值就是假的机会。

大模型

伦敦出租车司机的遭遇，暗示了程序员的未来

伦敦的出租车司机，特别是那些驾驶传统的黑色出租车的司机，可能是世界上最厉害的。

人工智能伦理

AI撬开小县城的万元商机

还有智能教育机器人进入了课堂，为学生提供个性化的学习辅导，提高了学习效果。

AI 商机

实现聊天机器人打字机形式输出内容：SSE原理介绍及Post实现方式

SSE默认支持断线重连机制，在连接断开时会触发EventSource的error事件，同时自动重连。

大模型

收藏！万字长文聊聊LLM Agents的现状，问题与未来

三个模块也描述了一个Agent自身状态的全部组成。

LLM Agents

GLM4 开源了！！！还有多模态

多模态能力，视觉与语言的融合 GLM-4V-9B 是基于 GLM-4-9B 的多模态模型，具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在多模态评测中表现超越了多个竞争对手

智普 ChatGLM 多模态

Threejs: 数字人生成金色动态粒子效果

昨天的文章提到通过修改数字人的材质做全息投影仪的动态效果，今天分享一下生成金色动态粒子人的代码，效果图如下：效果中还包含多个粒子效果的动态转换，有了这个，再加上摄像头，就可以完全模拟亚运会的数字人效果了

Threejs 数字人

国内厂商语音识别与Whisper评测：现状与概况对比

本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比，以期更全面地了解国内语音识别技术的现状与概况。

语音识别 Faster-Whisper

构建开源多模态RAG系统

换句话说想象你有一个超级聪明的机器人朋友。

RAG 大模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

首先通过模态编码器编码不同模态数据特征，紧接着在多模态特征对齐的预训练阶段学习模态适配器（Adaptor），将不同模态的输入特征与大语言模型对齐。

开源模型

SD插件｜EasyPhoto｜妙鸭相机平替|美颜算法

最近通过AI生成照片的一个APP很火，叫做妙鸭相机，通过上传几张你的个人照片就可以训练出角色模型，然后用户可以自由生成各种照片。

EasyPhoto 文生图

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1