文章列表-AI魔法学院

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软与清华合作提出YOCO（You Only Cache Once）架构，打破GPT系列的Decoder-Only模式，通过自解码器和交叉解码器设计，仅缓存一次键值对，显著降低GPU内存需求，同时保持全局注意力能力。实验显示，在处理长文本时，YOCO相比标准Transformer在内存使用、预填充延迟上大幅降低，吞吐量显著提升，具有出色的推理效率和可扩展性。

Decoder-Decoder YOCO 架构 2024-08-28

大模型

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

元象发布多模态大模型XVERSE-V，支持任意宽高比图像输入，性能领先，全开源且无条件免费商用。该模型在高清图像表示、图表理解、视障辅助、内容创作、教育解题等多方向表现出色，并已在多个领域实现商业应用。元象是国内领先的AI与3D技术服务公司，致力于推动前沿技术自主研发和国产开源大模型的发展。

XVERSE-V 多模态大模型 2024-08-28

大模型

第一个StableCascade动漫大模型上架了

本文介绍了StableAI发布StableCascade及Stable Diffusion 3的情况，强调了StableCascade虽强大但门槛高。StableCascade在AI绘画中画面细腻且理解自然语言能力强，适合高配置用户。文章还详细指导了如何在ComfyUI中下载、安装StableCascade模型及配置工作流，并展示了多个使用该模型生成的样图及其对应的提示词。

StableCascade 文生图 2024-08-27

开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

文章介绍了OpenAI发布会外的实时对话语音技术，特别是LiveKit作为GPT-4o背后的技术支持，提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用，并强调其作为开发者实现实时语音交互的便捷工具，展望未来应用前景广泛。

GPT-4o 语音交互 2024-08-27

Agent

2024年值得关注的Agent框架

2024年值得关注的几个Agent框架包括OpenAGI、TaskWeaver、MetaGPT、AutoGPT和SuperAGI，它们在智能规划、用户体验、记忆和大模型调用等方面各具特色，可用于任务管理、内容生成、代码编写等多种用途，展现了AI代理框架的多样性和潜力。

Agent 框架 2024-08-27

Prompt

Prompt屠龙术-思维链

本文介绍了prompt工程中的思维链（COT）技术，一种通过逐步推理提升大型语言模型（LLMs）输出质量的方法。文章阐述了思维链的基本概念，即鼓励LLMs在给出答案前展示推理过程，并详细说明了零示例、少样本示例以及多步骤辅助“笔算”三种COT技术。零示例COT通过简单提示提升模型推理能力；少样本示例COT通过展示逐步推理的示例来引导模型；多步骤辅助“笔算”则是将复杂任务拆解成多个逻辑上递进的步骤，让LLMs逐个解决。这些技术均通过实践验证，旨在提升LLMs的推理和输出质量。

Prompt 思维链 2024-08-26

ChatGPT

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

ChatOllama是集成ollama与OpenAI的图形化管理工具，支持模型、指令、知识库管理及AI聊天。使用Vue3、Nuxt等技术开发，可下载代码学习。支持docker安装及本地安装，需配置OpenAI、Claude等API密钥。功能包括创建系统指令、知识库、使用ChatGPT和Claude3模型，以及模型管理。项目开源，可加入学习交流群探讨大模型技术。

ChatOllama 安装 2024-08-26

生成式AI与大语言模型的区别

文章概述了生成式人工智能（如DALL-E、Midjourney）与大型语言模型（LLMs，如GPT-3、PaLM 2）的区别与互补性。生成式AI专注于创造原创内容（图像、音乐、文本），而LLMs则擅长理解和生成类似人类的语言内容。两者结合能增强内容生成、个性化、聊天机器人功能、多模态内容创作、叙事生成、翻译与本地化以及内容摘要等应用，为多个行业带来创新与发展前景。

生成式AI 大语言模型区别 2024-08-26

大模型

Github上Star数最多的大模型应用基础服务：Dify 深度解读

Dify 大模型知识库 2024-08-26

AGI

Yann LeCun杨立昆最新观点：AGI不存在

Yann LeCun在访谈中批评了大型语言模型（LLM）作为通往通用人工智能（AGI）途径的局限性，认为它们缺乏理解物理世界、推理和规划的能力。他倡导开源人工智能以增强人类善良并防止少数公司控制信息，同时提出联合嵌入预测架构（JEPA）作为替代方法，但承认其并非完整解决方案。LeCun强调人工智能系统需要更深入理解现实世界，并认为当前LLM存在重大局限性，包括无法扎根现实和缺乏分层规划能力。他还讨论了开源AI的重要性，认为这有助于防止权力集中，促进文化多样性和民主。

AGI 大语言模型观点 2024-08-23

工具

FFmpeg之父新作——音频压缩工具 TSAC

FFmpeg作者Fabrice Bellard发布了音频压缩工具TSAC，利用深度学习中的Transformer结构提升性能，实现极低比特率下的高质量音频压缩。TSAC采用RVQGAN技术，通过级联VQ和GAN训练提升压缩效果，具备多速率编码能力和降噪功能。然而，压缩后音频存在高频细节丢失等问题。

TSAC 音频工具 2024-08-23

Agent

AI Agent新对决：LangGraph与AutoGen的技术角力

文章总结了AutoGen和LangGraph两个AI Agent框架的特点和优势。AutoGen作为微软开源的多代理框架，允许开发者定义代理交互行为，实现复杂任务协作，但主要面向特定任务且依赖用户输入。而LangGraph作为LangChain的扩展库，通过循环图精确定义LLM任务细节，支持复杂场景下的应用，提供了更精细的控制能力和开发体验，在增强RAG应用、代码生成等领域具有广泛应用前景，并有望引领未来互联网搜索的发展方向。

LangGraph AutoGen 对决 2024-08-23

语音

开发语音产品时设计唤醒词和命令词的技巧

文章总结了在设计中文、英文和日文语音产品的唤醒词与命令词时，应遵循的原则和最佳实践。包括控制字词长度、提升音节区分度、选择发音清晰且不易误唤醒的词汇、符合用户语言习惯等，以提高语音识别效果并减少误唤醒。不同语言在细节上有所差异，但总体策略相似。

语音产品唤醒词命令词 2024-08-23

微软

微软Phi-3、Mixtral 8x22B等小模型过拟合，三分之二存在数据污染

研究揭示，三分之二的大型语言模型（LLM）存在过拟合问题，主要由于基准测试数据污染。Scale AI通过人工注释创建了GSM1k数据集，测试多个热门LLM，发现许多模型在GSM1k上的表现显著下降，特别是Phi和Mistral系列，显示出系统性过拟合。但前沿模型如Gemini、GPT、Claude和Llama2系列过拟合迹象较少。GSM1k数据集未公开，以防数据污染问题，并计划定期评估主要LLM。研究还指出，过拟合模型仍具推理能力，且数据污染可能不是过拟合的唯一原因。

过拟合小模型 2024-08-22

开源

微软最新模型Phi-3 Mini开源登场！小模型，大未来！

微软推出小型AI模型Phi-3 Mini，性能超越Llama-3 8B，成为新标杆。该模型开源免费，拥有38亿参数和3.3万亿tokens，在多项测试中表现卓越，支持4k和128k tokens上下文长度，便于本地部署，成本仅为同类模型十分之一。用户可通过LM Studio平台下载并运行Phi-3 Mini，实现高效且安全的AI交互体验。

Phi-3 Mini 开源模型微软 2024-08-22