文章列表-AI魔法学院

LLMOps框架Dify发布Workflow功能，RAG进入自由编排时代（附产品负责人分享PPT ）

GDC2024上海召开，大模型应用开发引关注。Dify发布工作流功能，替代固化的RAG编排，平衡模型能力与生产需求。工作流将复杂问题分解，提升可控性、可解释性和鲁棒性。Langchain、LlamaIndex等增强自由编排能力。随着模型能力增强，workflow或成过渡手段，但稳定性或受影响。何文斯在大会分享“Dify Workflow：从Prompt工程到Flow工程”。

RAG 自由编排 Workflow 2024-08-02

AI生成PPT不靠谱？那是你方法没用对

文章总结了PPT的40年历史及其普遍使用的现状，指出其耗时问题。随后，文章探讨了AI如何通过自动化编写PPT大纲和内容、美化PPT等步骤，来减少PPT制作的时间和精力。具体展示了如何使用AI（如Kimi）根据用户提供的文档或主题生成PPT大纲，并推荐了多款AI-PPT应用（如Gamma、美图AI PPT、Mindshow等）来快速制作PPT。最后，文章强调AI在PPT制作中的高效性，使得从编写大纲到生成PPT的整个流程在10分钟内即可完成。

PPT 制作 AI 2024-08-02

大模型

大模型：泛化即智能，压缩即一切

本文总结了关于机器学习模型泛化能力的理解，强调了通过大量不同数据训练高容量模型的重要性，以追求长期泛化能力而非短期模型微调。文章从孔子对泛化能力的阐述引入，类比到机器学习领域，提出模型泛化能力类似于孩子通过多样化学习建立坚实认知基础。探讨了监督学习和无监督学习在提升模型泛化能力中的作用，特别是无监督学习通过分布匹配捕捉数据内在结构。此外，讨论了涌现现象，即模型在长时间训练后突然理解数据深层数学结构并实现泛化。文章最后总结了泛化能力的关键要素，并提到压缩与预测等价，大模型可视为对世界信息的压缩表示。

大模型泛化 2024-08-01

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，DeepMusic发布AI音乐工作站“和弦派”2.0，贯穿音乐创作全过程，支持多种AI生成及创作方式、轻松编辑、一键导出多种格式文件，确保专业品质，且为移动端应用，便捷高效。创始人刘晓光称这是打破创作边界、提升生产力的重要一步，标志着DeepMusic服务能力的拓展，开启AI音乐创作新篇章。

和弦派 DeepMusic 音乐创作 2024-08-01

Prompt

Claude 官方提示词，中文版（含API Prompt）

编写一个完整的网络应用程序作为单个HTML文件,该应用程序应包含一个简单的横向滚动游戏,我使用WASD来移动。在移动世界时,偶尔角色/精灵会遇到单词,当遇到单词时,玩家必须尽快正确输入该单词,输入单词越快,玩家获得的分数就越高,我们应该在右上角有一个计数器来跟踪分数,单词应该是随机和高度可变的,以保持游戏有趣,你应该使网站非常美观,并使用Tailwind。

prompt 写作 2024-08-01

工具

4K star！录屏好帮手，超酷的实时按键显示工具

Keyviz是一款免费开源的跨平台实时键鼠输入可视化软件，能显示按键和鼠标操作，支持自定义样式和过滤特定按键，但2.0版本尚在alpha阶段，存在点击飘逸、配置不生效等问题，整体显示效果优秀，适合录制教程或演示时使用。项目GitHub链接为https://github.com/mulaRahul/keyviz，已有4K Star。

Keyviz 录频 2024-08-01

比 Roop 和 Reactor 更像！IP Adapter 新模型为任何人做写真

IP-Adapter新模型Face ID Plus V2超越Roop和Reactor，能生成个性化且保持脸部一致性的多风格人物肖像，适用于Stable Diffusion云平台。通过ControlNet和Lora模型配合，精细调整参数和采样步数，可生成高度相似且自然的定制化肖像。文中还介绍了模型安装、使用步骤及解决常见问题的方法，如InsightFace的安装。最后，通过微调ControlNet中的步数，可进一步优化换脸效果。

IP-Adapter 文生图 2024-07-30

比 remini 更便宜，比美图更有风格！黏土滤镜免费做，速领

五一小长假期间，黏土滤镜走红，能将照片转为可爱的黏土风格。主流APP如Remini、Uni Dream需订阅，美图秀秀限时免费但效果较弱。若会AI绘画，可通过comfyui结合SDXL大模型、Lora和controlnet实现类似效果，具体流程包括加载模型、连接KSampler、添加controlnet控制结构，最终解码出图。

SDXL 文生图 2024-07-30

阿里

阿里RAG新框架R4：增强检索器-重排序-响应器，5个知识密集任务上都超过Self-RAG等！

R4框架通过增强检索器-重排序-响应器机制解决大型语言模型生成文本时的“幻觉”问题，通过图注意力学习和强化学习动态调整检索文档顺序，并细化文档表示，显著提升在知识密集型任务上的性能，且对不同检索器和语言模型具有良好适应性。

RAG 检索大型语言模型 2024-07-30

Prompt

40个值得收藏的AI prompt提示词，帮助你更好地思考问题，做出更加准确地商业决策，让你无往不利

本文汇总了43种商业决策分析工具和方法，涵盖战略规划、市场评估、风险管理、创新思维、竞争优势等多个方面。这些方法包括蓝海战略、护城河分析、SWOT分析、OODA环、艾森豪威尔决策矩阵、零基思维、成长型思维、波特五力分析、客户需求满足框架、产品与市场契合度评估、创新者困境分析、飞轮效应分析、黑天鹅事件分析、精益创业方法、互惠原则、平均足图分析法、双曲贴现分析、Kano模型、预先失败模式分析、持续改进（Kaizen）、约束理论、颠覆性创新、钩子模型、林迪效应、价值链分析、临界点、净推荐得分（NPS）、情景规划、决策树分析、营销的4P、六顶思考帽、红队策略、锚定偏误、金字塔原理、关键少数（帕累托原理）、敏捷方法论、平衡计分卡、跨越鸿沟、弱联系的影响力、亲和性分组法、五因素探究法、所有权偏好效应和关键少数原则。每种方法都提供了独特的视角和工具，帮助决策者更全面地评估商业决策，制定更有效的策略。

prompt 提示词 2024-07-30

Transformer

图解 transformer——逐层介绍

文章总结了Transformer模型的整体架构及关键组件，包括词嵌入层、位置编码、编码器堆栈（含多头注意力和前馈层）、解码器堆栈（含两个多头注意力和前馈层）、输出层（线性层和Softmax层）。深入解释了注意力机制（自注意力和编码器-解码器注意力）及多头注意力的重要性，并介绍了注意力掩码在编码器和解码器中的应用。最后，描述了模型如何生成输出，包括通过线性层和Softmax层将解码器输出转换为概率分布，并使用交叉熵损失函数进行训练。

Transformer 大模型图解 2024-07-29

阿里

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

阿里巴巴通义实验室XR团队在2024中国生成式AI大会上展示了人物视频生成新范式，包括人物动作、换装、替身、唱演四大框架，已应用于通义千问APP。这些框架分别通过Animate Anyone、Outfit Anyone、Motionshop和Emote Portrait Alive技术，实现了从单张图到复杂视频内容的生成，展现了行业领先地位和丰富的应用潜力。

通义文生视频 2024-07-29

Ollama 与 Dify：AI 应用开发的强强联合

Ollama和Dify是两个开源项目，分别用于本地部署LLM和AI应用开发管理。Ollama提供本地推理框架简化LLM部署，Dify则提供AI应用开发、管理和部署的全套工具。结合使用这两个工具，开发人员可以快速开发、部署和优化AI应用，如问答系统，并通过Dify进行性能监控和优化。

Ollama Dify 大型语言模型 2024-07-29

开源

30 多年前被 Windows、Linux “灭掉”的操作系统 MS-DOS 4.0，微软在 GitHub 上开源了！

微软与IBM决定将36年前的MS-DOS 4.0版本开源，并在GitHub上发布源代码、二进制文件等，供学习研究。此举得益于前微软CTO Ray Ozzie和研究员Connor Hyde的推动。MS-DOS 4.0曾在历史上引起争议，虽功能增强但兼容性不佳。如今开源引发操作系统爱好者的关注，仓库已获大量Star和Fork。此前微软已开源过MS-DOS其他版本。

MS-DOS 4.0 开源模型微软 2024-07-29

阿里

阿里出品自动化视频剪辑工具FunClip！

FunClip是阿里达摩院开源的本地部署视频剪辑工具，依托FunASR模型实现语音自动识别，支持热词定制、说话人识别、视频裁剪与多段剪辑，自动生成SRT字幕，提供Gradio交互界面和命令行操作，简化视频剪辑流程。一键启动包避免复杂环境配置，适用于Windows10/11 64位系统，需8G以上英伟达显卡。

FunClip 视频阿里 2024-07-26