训练魔法-AI魔法学院

9.4k Star！MemGPT：伯克利大学最新开源、将LLM作为操作系统、无限上下文记忆、服务化部署自定义Agent

MemGPT是一个新项目，它允许大型语言模型（如GPT-4）处理比原生更长的上下文窗口，从而提升在复杂任务中的性能。MemGPT通过分层内存系统使LLM能管理自己的内存，并通过特殊函数调用将数据在主上下文和外部上下文之间移动。该技术基于操作系统管理内存的原理，分为“主要上下文”和“外部上下文”，允许模型处理更大数据集和更长对话，并保持交互一致性。MemGPT还提供了与其他开源模型及多Agent框架的整合能力，并通过开发者门户简化创建、编辑和监视LLM代理的过程。

MemGPT 大语言模型 2024-07-24

Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4

Nvidia推出Llama3-ChatQA-1.5，一款超越GPT-4的对话问答模型，融合会话式问答和表格推理能力，通过高质量数据训练，无需ChatGPT合成数据，检索增强能力强大，小尺寸高性能，适合边缘设备部署，将支撑未来对话式AI应用。模型可在Huggingface和AI快站下载。

Llama3-ChatQA-1.5 对话问答模型 2024-07-23

提示词

Anthropic推出提示词生成器让AI秒懂你的需求！

Anthropic公司推出了一款提示词生成器，通过高级提示工程技术帮助AI更精准地理解并执行用户指令，提高AI响应的精确度和可靠性。用户只需描述需求，系统即可生成优化提示，并支持微调及与其他AI模型兼容，广泛应用于各种AI平台和服务，提升工作效率，展现AI在复杂任务处理上的巨大潜力。

Anthropic 提示词生成器 2024-07-23

工具

AI文本转语音工具（TTS）：MeloTTS

MeloTTS是款开源文本转语音工具，支持多语言及口音转换，可调整语速，声音自然流畅，项目及体验地址已给出。

MeloTTS 语音工具 2024-07-22

开源

【开源看AI】4.2K star！Reor：AI自动帮你发现知识之间的连接

文章介绍了Reor，一个旨在通过AI自动连接笔记、增强推理能力的开源个人知识管理工具。Reor不仅支持自动连接相关笔记，还能通过智能聊天回答关于笔记的问题，并生成AI闪卡帮助记忆。它强调本地运行模型以保护用户数据隐私，适用于学生、研究人员等需要高效管理个人知识的用户。文章还探讨了Reor与Quivr等其他工具的整合潜力，以形成完整的个人知识管理系统。

Reor 开源工具知识管理 2024-07-22

阿里

[论文] 阿里提出AgentScope：灵活强大的智能体框架

随着科技的飞速发展，人工智能（AI）已经成为我们生活中不可或缺的一部分。从智能家居到自动驾驶汽车，AI正在逐渐渗透到各个领域，展现出其巨大的潜力和价值。然而，与此同时，AI也带来了一系列挑战，如就业岗位的减少、隐私安全等问题。我们该如何平衡AI带来的利弊，让科技真正为人类服务？

AgentScope 语言大模型智能体 2024-07-22

数字人

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

本文介绍了GPT-SoVITS声音克隆项目，该项目支持零样本文本到语音（TTS）转换、少样本TTS微调、跨语言支持以及WebUI工具等功能。环境要求包括特定版本的Python、PyTorch和CUDA。项目提供了Windows一键安装包，并详细说明了声音克隆的训练过程，包括数据准备、人声分离、语音转文字、数据格式化和微调等步骤。通过实际训练并测试效果，显示了该项目在中英文环境下声音克隆的可行性和效果提升。最后提供了项目在GitHub上的地址。

数字人声音克隆 GPT-SoVITS 2024-07-19

GGUF格式详解

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。很多模型模型，如Yi-34B、Llama2-70B等模型都有对应的GGUF版本，这些版本都模型除了文件名多了GGUF外，其它与原有的模型名称完全一致。那么，GGUF大模型文件格式是什么意思？为什么会有这样的大模型文件，与它一同出现对比的是GGML格式文件，二者的区别是啥？

GGUF 大模型 2024-07-19

大模型

ollama本地部署自然语言大模型

本文介绍了如何在本地运行大模型，特别推荐使用ollama工具，无需编写代码。测试环境为i5 8400、16G内存和1060 6G显卡。通过下载和安装ollama，用户能够方便地在本地运行大模型，并使用Chatbox作为桌面程序简化模型调用。文章还提供了ollama和Chatbox的下载地址，以及修改模型默认安装位置的方法。此外，还列出了多种可下载的大模型及其安装命令，包括gemma:2b等，并指出了运行不同规模模型所需的最低内存要求。最后，文章还介绍了通过命令行与模型进行交互的方法。

ollama 语言大模型部署 2024-07-19

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

本文探讨了生成型人工智能（AI）在前端开发自动化方面的进展，尤其是多模态大型语言模型（LLMs）将视觉设计直接转换为代码实现的能力。通过斯坦福和谷歌等机构的研究，提出了Design2Code任务，并构建了包含484个真实世界网页的基准测试集。测试结果显示，GPT-4V在将设计转换为代码方面表现优异，能在49%的案例中替代原始参考网页，并在64%的案例中被认为设计得更好。研究还揭示了多模态提示方法和微调模型的有效性，为未来自动化前端工程和改进网站设计工具的研究提供了方向。同时，也强调了隐私和双重使用问题的重要性，并建议制定明确的伦理使用指南。

设计转代码大模型 2024-07-17

Google

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

MoveNet是Google推出的轻量化单人姿态估计模型，采用bottom-up范式，集成了MobileNetv2和FPN等经典结构，具备快速下采样、残差连接和参数集中等特性。其独特之处在于Head部分包含四个预测头，分别用于检测中心点、回归关节点坐标、检测关键点以及预测偏移值，以消除量化误差。后处理流程通过加权方法选取最相关的关键点，并利用Offset Regression减少误差。MoveNet在特定数据集上表现出色，与top-down模型相当，且经过工程优化加速推理速度。此外，Google还推出了多人姿态估计版本的MoveNet-MultiPose，但变动较大且精度不理想。

MoveNet-SinglePose Google 模型 2024-07-17

Deepseek-V2技术报告解读！全网最细！

Deepseek发布了v2版本模型，沿用Deepseek-MoE技术，采用小专家建模与多优化策略。该模型完全开源并支持商用，提供了低成本的API调用方案。v2模型在MMLU上取得第二名，超越V1版本，并显著提升成本效率与推理速度。其核心优化在于多头隐式注意力（MLA），旨在减少显存占用，同时保持模型效果。模型架构包含60层，采用RMSNorm和SiLU激活函数，并通过对话数据进行对齐训练。工程上，v2通过流水线并行和专家并行策略，结合资源感知专家负载均衡方法，实现了训练效率的最优。模型在基座能力和指令遵循能力上表现强劲，得益于数据优化和训练策略的深度整合。

Deepseek-V2 大模型 2024-07-17

腾讯

AI助手App“腾讯元宝”已上线应用商店

腾讯元宝是一款基于腾讯混元大模型的AI产品，已在部分安卓应用商店上架，但尚未在苹果App Store上线。它支持中英文输入与理解，并允许用户创建个性化智能体，提供AI搜索、解析、写作和多种实用应用功能，旨在提升用户在办公、学习、创作和生活等领域的效率与体验。

腾讯元宝 2024-07-16

Agent

Coze多智能体（Multi-Agents）模式体验！

文章简要介绍了Coze平台更新的多智能体（Multi-Agents）功能，包括其定义、与单智能体的区别，以及通过实际案例展示如何创建和配置多智能体。文章还提到了著名且开创性的多智能体研究或项目，并提供了体验Coze多智能体的链接和步骤，涵盖了从确定应用场景、构建公司架构到创建、配置、调试和发布多智能体的整个过程。

Coze 多智能体 2024-07-16

AIGC

AIGC系列之一-一文理解什么是Embedding嵌入技术

文章介绍了嵌入技术（Embedding）的基本概念、原理及其在人工智能与图形计算（AIGC）和实际应用场景中的应用。Embedding是一种将高维数据映射到低维空间的技术，广泛应用于机器学习和自然语言处理中，通过训练得到的Embedding向量可以更准确地表示数据的内在含义。文章列举了Word2Vec、GloVe、FastText等几种常见的Embedding模型，并解释了它们的工作原理和优势。此外，还阐述了Embedding的降维、捕捉语义信息、适应性、泛化能力和可解释性等价值。在应用场景方面，文章指出Embedding在文本分类、推荐系统以及AIGC等领域具有广泛的应用，特别是在处理隐私风险和长文本任务时，通过内容向量化存储在向量数据库中，能有效提升数据处理效率和准确性。

AIGC Embedding 嵌入技术 2024-07-16