文章列表-AI魔法学院

Anthropic公司推出了一款提示词生成器，通过高级提示工程技术帮助AI更精准地理解并执行用户指令，提高AI响应的精确度和可靠性。用户只需描述需求，系统即可生成优化提示，并支持微调及与其他AI模型兼容，广泛应用于各种AI平台和服务，提升工作效率，展现AI在复杂任务处理上的巨大潜力。

Anthropic 提示词生成器 2024-07-23

阿里

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

文章概述：文章介绍了一个名为EMO的AI视频项目，该项目来自阿里通义实验室，允许用户通过上传人物正面大头照和选择音频片段，生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎，用户可以通过“全民舞台”功能体验。EMO采用弱控制设计，不强制建模整个面部，而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示，技术开源前需解决安全问题，并透露未来计划将EMO扩展到半身、全身，并可能引入新架构。同时，EMO背后团队专注于数字人研究，通过奶牛猫跳舞等动物主题激发用户兴趣，强调高质量AIGC内容的重要性。最后，文章推荐了EMO的一个私房玩法，即使用自己不同年龄段的照片进行合唱。

音频阿里 2024-07-23

开源

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

本文介绍了一个基于LiveKit WebRTC的代理框架，用于构建实时、可编程的服务器端参与者，能够处理或生成音频、视频和数据流。该框架包括多种插件，如语音转文本（STT）和文本转语音（TTS）等，与LiveKit服务器无缝集成，无需额外排队基础设施。当前处于开发者预览模式，API可能变动。代理通过pip安装，并可通过CLI接口运行，支持加入特定的聊天室。此外，提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例，并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。

voice agent 开源音视频 2024-07-22

工具

AI文本转语音工具（TTS）：MeloTTS

MeloTTS是款开源文本转语音工具，支持多语言及口音转换，可调整语速，声音自然流畅，项目及体验地址已给出。

MeloTTS 语音工具 2024-07-22

开源

【开源看AI】4.2K star！Reor：AI自动帮你发现知识之间的连接

文章介绍了Reor，一个旨在通过AI自动连接笔记、增强推理能力的开源个人知识管理工具。Reor不仅支持自动连接相关笔记，还能通过智能聊天回答关于笔记的问题，并生成AI闪卡帮助记忆。它强调本地运行模型以保护用户数据隐私，适用于学生、研究人员等需要高效管理个人知识的用户。文章还探讨了Reor与Quivr等其他工具的整合潜力，以形成完整的个人知识管理系统。

Reor 开源工具知识管理 2024-07-22

阿里

[论文] 阿里提出AgentScope：灵活强大的智能体框架

随着科技的飞速发展，人工智能（AI）已经成为我们生活中不可或缺的一部分。从智能家居到自动驾驶汽车，AI正在逐渐渗透到各个领域，展现出其巨大的潜力和价值。然而，与此同时，AI也带来了一系列挑战，如就业岗位的减少、隐私安全等问题。我们该如何平衡AI带来的利弊，让科技真正为人类服务？

AgentScope 语言大模型智能体 2024-07-22

ComfyUI

扣子更新图像流功能，字节版 ComfyUI 来了！

本文介绍了ComfyUI的“字节版”图像流，一个通过可视化方式组合图像获取、生成、编辑和发布功能的开源工作流工具。尽管刚上线不久即被下架，但短暂测试中展现了智能扩图、抠图、换脸等强大功能，并提供了丰富的模板供学习。官方计划5月15日全量上线，同时呼吁读者加入社群关注更新。此外，作者还提到对GPT-4o API的初步尝试，认为其功能与4v相近，未见特别惊艳之处。

ComfyUI 图像流文生图 2024-07-19

数字人

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

本文介绍了GPT-SoVITS声音克隆项目，该项目支持零样本文本到语音（TTS）转换、少样本TTS微调、跨语言支持以及WebUI工具等功能。环境要求包括特定版本的Python、PyTorch和CUDA。项目提供了Windows一键安装包，并详细说明了声音克隆的训练过程，包括数据准备、人声分离、语音转文字、数据格式化和微调等步骤。通过实际训练并测试效果，显示了该项目在中英文环境下声音克隆的可行性和效果提升。最后提供了项目在GitHub上的地址。

数字人声音克隆 GPT-SoVITS 2024-07-19

GGUF格式详解

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。很多模型模型，如Yi-34B、Llama2-70B等模型都有对应的GGUF版本，这些版本都模型除了文件名多了GGUF外，其它与原有的模型名称完全一致。那么，GGUF大模型文件格式是什么意思？为什么会有这样的大模型文件，与它一同出现对比的是GGML格式文件，二者的区别是啥？

GGUF 大模型 2024-07-19

大模型

ollama本地部署自然语言大模型

ollama 语言大模型部署 2024-07-19

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

本文探讨了生成型人工智能（AI）在前端开发自动化方面的进展，尤其是多模态大型语言模型（LLMs）将视觉设计直接转换为代码实现的能力。通过斯坦福和谷歌等机构的研究，提出了Design2Code任务，并构建了包含484个真实世界网页的基准测试集。测试结果显示，GPT-4V在将设计转换为代码方面表现优异，能在49%的案例中替代原始参考网页，并在64%的案例中被认为设计得更好。研究还揭示了多模态提示方法和微调模型的有效性，为未来自动化前端工程和改进网站设计工具的研究提供了方向。同时，也强调了隐私和双重使用问题的重要性，并建议制定明确的伦理使用指南。

设计转代码大模型 2024-07-17

阿里

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频，实现了口型同步和人物自然动作。用户可通过通义千问免费体验，但当前版本限制多，如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高，但EMO的定制化有限，主要考虑因素包括视频质量、风控、版权和算力消耗。目前，EMO更多作为尝鲜产品，未来需改进才能应用于更广泛场景。

EMO 阿里全民演唱 2024-07-17

Google

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

MoveNet是Google推出的轻量化单人姿态估计模型，采用bottom-up范式，集成了MobileNetv2和FPN等经典结构，具备快速下采样、残差连接和参数集中等特性。其独特之处在于Head部分包含四个预测头，分别用于检测中心点、回归关节点坐标、检测关键点以及预测偏移值，以消除量化误差。后处理流程通过加权方法选取最相关的关键点，并利用Offset Regression减少误差。MoveNet在特定数据集上表现出色，与top-down模型相当，且经过工程优化加速推理速度。此外，Google还推出了多人姿态估计版本的MoveNet-MultiPose，但变动较大且精度不理想。

MoveNet-SinglePose Google 模型 2024-07-17

Deepseek-V2技术报告解读！全网最细！

Deepseek发布了v2版本模型，沿用Deepseek-MoE技术，采用小专家建模与多优化策略。该模型完全开源并支持商用，提供了低成本的API调用方案。v2模型在MMLU上取得第二名，超越V1版本，并显著提升成本效率与推理速度。其核心优化在于多头隐式注意力（MLA），旨在减少显存占用，同时保持模型效果。模型架构包含60层，采用RMSNorm和SiLU激活函数，并通过对话数据进行对齐训练。工程上，v2通过流水线并行和专家并行策略，结合资源感知专家负载均衡方法，实现了训练效率的最优。模型在基座能力和指令遵循能力上表现强劲，得益于数据优化和训练策略的深度整合。

Deepseek-V2 大模型 2024-07-17

腾讯

AI助手App“腾讯元宝”已上线应用商店

腾讯元宝是一款基于腾讯混元大模型的AI产品，已在部分安卓应用商店上架，但尚未在苹果App Store上线。它支持中英文输入与理解，并允许用户创建个性化智能体，提供AI搜索、解析、写作和多种实用应用功能，旨在提升用户在办公、学习、创作和生活等领域的效率与体验。

腾讯元宝 2024-07-16