文章列表-AI魔法学院

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

本文介绍了一个基于LiveKit WebRTC的代理框架，用于构建实时、可编程的服务器端参与者，能够处理或生成音频、视频和数据流。该框架包括多种插件，如语音转文本（STT）和文本转语音（TTS）等，与LiveKit服务器无缝集成，无需额外排队基础设施。当前处于开发者预览模式，API可能变动。代理通过pip安装，并可通过CLI接口运行，支持加入特定的聊天室。此外，提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例，并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。

voice agent 开源音视频 2024-07-22

工具

AI文本转语音工具（TTS）：MeloTTS

MeloTTS是款开源文本转语音工具，支持多语言及口音转换，可调整语速，声音自然流畅，项目及体验地址已给出。

MeloTTS 语音工具 2024-07-22

开源

【开源看AI】4.2K star！Reor：AI自动帮你发现知识之间的连接

文章介绍了Reor，一个旨在通过AI自动连接笔记、增强推理能力的开源个人知识管理工具。Reor不仅支持自动连接相关笔记，还能通过智能聊天回答关于笔记的问题，并生成AI闪卡帮助记忆。它强调本地运行模型以保护用户数据隐私，适用于学生、研究人员等需要高效管理个人知识的用户。文章还探讨了Reor与Quivr等其他工具的整合潜力，以形成完整的个人知识管理系统。

Reor 开源工具知识管理 2024-07-22

阿里

[论文] 阿里提出AgentScope：灵活强大的智能体框架

随着科技的飞速发展，人工智能（AI）已经成为我们生活中不可或缺的一部分。从智能家居到自动驾驶汽车，AI正在逐渐渗透到各个领域，展现出其巨大的潜力和价值。然而，与此同时，AI也带来了一系列挑战，如就业岗位的减少、隐私安全等问题。我们该如何平衡AI带来的利弊，让科技真正为人类服务？

AgentScope 语言大模型智能体 2024-07-22

ComfyUI

扣子更新图像流功能，字节版 ComfyUI 来了！

本文介绍了ComfyUI的“字节版”图像流，一个通过可视化方式组合图像获取、生成、编辑和发布功能的开源工作流工具。尽管刚上线不久即被下架，但短暂测试中展现了智能扩图、抠图、换脸等强大功能，并提供了丰富的模板供学习。官方计划5月15日全量上线，同时呼吁读者加入社群关注更新。此外，作者还提到对GPT-4o API的初步尝试，认为其功能与4v相近，未见特别惊艳之处。

ComfyUI 图像流文生图 2024-07-19

数字人

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

本文介绍了GPT-SoVITS声音克隆项目，该项目支持零样本文本到语音（TTS）转换、少样本TTS微调、跨语言支持以及WebUI工具等功能。环境要求包括特定版本的Python、PyTorch和CUDA。项目提供了Windows一键安装包，并详细说明了声音克隆的训练过程，包括数据准备、人声分离、语音转文字、数据格式化和微调等步骤。通过实际训练并测试效果，显示了该项目在中英文环境下声音克隆的可行性和效果提升。最后提供了项目在GitHub上的地址。

数字人声音克隆 GPT-SoVITS 2024-07-19

GGUF格式详解

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。很多模型模型，如Yi-34B、Llama2-70B等模型都有对应的GGUF版本，这些版本都模型除了文件名多了GGUF外，其它与原有的模型名称完全一致。那么，GGUF大模型文件格式是什么意思？为什么会有这样的大模型文件，与它一同出现对比的是GGML格式文件，二者的区别是啥？

GGUF 大模型 2024-07-19

大模型

ollama本地部署自然语言大模型

ollama 语言大模型部署 2024-07-19

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

本文探讨了生成型人工智能（AI）在前端开发自动化方面的进展，尤其是多模态大型语言模型（LLMs）将视觉设计直接转换为代码实现的能力。通过斯坦福和谷歌等机构的研究，提出了Design2Code任务，并构建了包含484个真实世界网页的基准测试集。测试结果显示，GPT-4V在将设计转换为代码方面表现优异，能在49%的案例中替代原始参考网页，并在64%的案例中被认为设计得更好。研究还揭示了多模态提示方法和微调模型的有效性，为未来自动化前端工程和改进网站设计工具的研究提供了方向。同时，也强调了隐私和双重使用问题的重要性，并建议制定明确的伦理使用指南。

设计转代码大模型 2024-07-17

阿里

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频，实现了口型同步和人物自然动作。用户可通过通义千问免费体验，但当前版本限制多，如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高，但EMO的定制化有限，主要考虑因素包括视频质量、风控、版权和算力消耗。目前，EMO更多作为尝鲜产品，未来需改进才能应用于更广泛场景。

EMO 阿里全民演唱 2024-07-17

Google

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

MoveNet是Google推出的轻量化单人姿态估计模型，采用bottom-up范式，集成了MobileNetv2和FPN等经典结构，具备快速下采样、残差连接和参数集中等特性。其独特之处在于Head部分包含四个预测头，分别用于检测中心点、回归关节点坐标、检测关键点以及预测偏移值，以消除量化误差。后处理流程通过加权方法选取最相关的关键点，并利用Offset Regression减少误差。MoveNet在特定数据集上表现出色，与top-down模型相当，且经过工程优化加速推理速度。此外，Google还推出了多人姿态估计版本的MoveNet-MultiPose，但变动较大且精度不理想。

MoveNet-SinglePose Google 模型 2024-07-17

Deepseek-V2技术报告解读！全网最细！

Deepseek发布了v2版本模型，沿用Deepseek-MoE技术，采用小专家建模与多优化策略。该模型完全开源并支持商用，提供了低成本的API调用方案。v2模型在MMLU上取得第二名，超越V1版本，并显著提升成本效率与推理速度。其核心优化在于多头隐式注意力（MLA），旨在减少显存占用，同时保持模型效果。模型架构包含60层，采用RMSNorm和SiLU激活函数，并通过对话数据进行对齐训练。工程上，v2通过流水线并行和专家并行策略，结合资源感知专家负载均衡方法，实现了训练效率的最优。模型在基座能力和指令遵循能力上表现强劲，得益于数据优化和训练策略的深度整合。

Deepseek-V2 大模型 2024-07-17

腾讯

AI助手App“腾讯元宝”已上线应用商店

腾讯元宝是一款基于腾讯混元大模型的AI产品，已在部分安卓应用商店上架，但尚未在苹果App Store上线。它支持中英文输入与理解，并允许用户创建个性化智能体，提供AI搜索、解析、写作和多种实用应用功能，旨在提升用户在办公、学习、创作和生活等领域的效率与体验。

腾讯元宝 2024-07-16

Agent

Coze多智能体（Multi-Agents）模式体验！

文章简要介绍了Coze平台更新的多智能体（Multi-Agents）功能，包括其定义、与单智能体的区别，以及通过实际案例展示如何创建和配置多智能体。文章还提到了著名且开创性的多智能体研究或项目，并提供了体验Coze多智能体的链接和步骤，涵盖了从确定应用场景、构建公司架构到创建、配置、调试和发布多智能体的整个过程。

Coze 多智能体 2024-07-16

AIGC

AIGC系列之一-一文理解什么是Embedding嵌入技术

文章介绍了嵌入技术（Embedding）的基本概念、原理及其在人工智能与图形计算（AIGC）和实际应用场景中的应用。Embedding是一种将高维数据映射到低维空间的技术，广泛应用于机器学习和自然语言处理中，通过训练得到的Embedding向量可以更准确地表示数据的内在含义。文章列举了Word2Vec、GloVe、FastText等几种常见的Embedding模型，并解释了它们的工作原理和优势。此外，还阐述了Embedding的降维、捕捉语义信息、适应性、泛化能力和可解释性等价值。在应用场景方面，文章指出Embedding在文本分类、推荐系统以及AIGC等领域具有广泛的应用，特别是在处理隐私风险和长文本任务时，通过内容向量化存储在向量数据库中，能有效提升数据处理效率和准确性。

AIGC Embedding 嵌入技术 2024-07-16