文章列表-AI魔法学院

文章列表

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

语音助理和远程语音助理：数字人可以作为语音助理，进行语音交互，提供信息查询、日程管理等辅助任务。

Fay 开源项目数字人

来自OpenAI应用研究主管关于Agent的万字长文-AI Agents介绍

该论文假设，任何生成一系列学习历史数据的算法都可以通过对动作执行克隆行为来蒸馏成神经网络。

Agent

中学生也能看懂的Sora视频生成原理解读

具体到Sora的实现，这个过程开始于一段与目标视频同样时长、但是内容完全是随机噪声的视频。

视频生成 sora

【万字长文】全球AI Agent大盘点，大语言模型创业一定要参考的60个AI智能体

6月的一次全体员工会议上，扎克伯格宣布了一系列处于不同开发阶段的技术，其中一个就是将带来具有不同个性和能力的AI Agents为用户提供帮助或娱乐。

大语言模型

教你打造属于自己的AI孙燕姿，AI歌手模型使用及训练保姆级课程 #1/2 使用模型

原始声音处理要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去，然后使用模型把原来的音色换成你模型训练好的音色（类似AI画图的img2img垫图）。

生成式AI

比尔盖茨最新预言：AI智能体颠覆计算机交互体验甚至软件行业

例如，Abridge、Nuance DAX和Nabla Copilot可以在预约期间捕获音频，然后写下笔记供医生查看。

AI智能体

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

多模态（Multi-Modal）: 多模态主要是指让机器能够理解和处理自然界或人工定义的多种模态信息，如声音、语言、视觉信息和表格、点云信息等。

开源

基于LLM+向量库的文档对话痛点及解决方案

痛点：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失笔者之前采用了Longchain的文档切分工具，发现不能问题。

开源模型

目前大语言模型的评测基准有哪些？

ChatbotArena：借鉴游戏排位赛机制，让人类对模型两两评价 ChatbotArena是一个大型语言模型 (LLM) 的基准平台，该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织

人工智能评测大模型

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字

提示词 prompt

搞了一个Dify开源知识库

Workflow：打造你的智能工作流 · 初衷：也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下

Dify 大模型知识库

来个优秀的开源人脸识别项目！

通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合，将人体固有的生理特征或行为特征收集起来，进行取样、数字化处理和分析。

人脸识别开源项目

打磨 8 个月、功能全面升级，Milvus 2.3.0 文字发布会现在开始！

具体来看：Milvus 2.3.0 不仅包含大量的社区呼声很高的新功能，还带来了诸如 GPU 支持、Query 架构升级、更强的负载均衡调度能力、新的消息队列、Arm版本镜像、可观测性、

大语言模型

ChatGPT羊驼家族全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出

作者介绍卡内基梅隆大学教授Zico Kolter（右）和博士生Andy Zou是研究人员之一 Andy Zou Andy Zou是CMU计算机科学系的一名一年级博士生，导师是Zico

开源模型

ComfyUI的特性以及安装流程

手动安装（Windows、Linux）克隆此存储库。

ComfyUI 文生图

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1