训练魔法-AI魔法学院

MuseTaIk是腾讯团队开发的音频驱动唇部同步模型，能实时调整数字人物面部图像以匹配音频内容，支持多语言。然而，其实时性和高质量受质疑，实测推理速度较慢且效果不理想。尽管存在不足，该团队致力于推动数字人技术发展，值得肯定。用户可根据需求选择是否使用，同时作者提供了改进建议及替代服务选项。

MuseTalk 数字人音频 2024-08-30

开源

新测试基准发布，最强开源Llama 3尴尬了

如果试题太简单，学霸和学渣都能考90分，拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。大模型竞技场背后组织LMSYS推出下一代基准测试Arena-Hard，引起广泛关注。 Llama 3的两个指令微调版本实力到底如何，也有了最新参考。

Llama 3 大模型开源 2024-08-30

微信中和 AI 进行对话

本文介绍了如何配置并使用AI助手（如FastGPT）和微信助理（微秘书）来创建一个可以在微信中对话的AI机器人。步骤包括注册并配置FastGPT获取API信息，注册并配置微秘书以接入FastGPT，通过sealos部署微秘书后端服务至个人微信，并测试机器人功能。最后，提示了后续将介绍如何将其他应用（如滴答清单、flomo、Cubox）集成到微信机器人中的方法。

微信对话 2024-08-29

Agent

Agent四大范式 | 综述：全面理解Agent工作原理

本文综述了基于大型语言模型（LLMs）的自主代理规划研究，将其分为任务分解、多方案选择、外部模块辅助规划、反思与优化、记忆增强规划五大方向。文章指出，LLMs在逻辑推理、任务分解等方面表现优异，但面临幻觉、计划可行性及效率等问题。通过任务分解、多方案选择、结合外部规划器、反思优化及记忆增强等技术手段，可提升LLM代理的规划能力。然而，现有研究仍面临多模态环境反馈处理、细致评估方法缺乏等挑战。文章还提及了吴恩达对Agent模式的推崇，认为其有望成为未来AGI的通用技术路线。

Agent 大语言模型 2024-08-29

微软

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软与清华合作提出YOCO（You Only Cache Once）架构，打破GPT系列的Decoder-Only模式，通过自解码器和交叉解码器设计，仅缓存一次键值对，显著降低GPU内存需求，同时保持全局注意力能力。实验显示，在处理长文本时，YOCO相比标准Transformer在内存使用、预填充延迟上大幅降低，吞吐量显著提升，具有出色的推理效率和可扩展性。

Decoder-Decoder YOCO 架构 2024-08-28

大模型

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

元象发布多模态大模型XVERSE-V，支持任意宽高比图像输入，性能领先，全开源且无条件免费商用。该模型在高清图像表示、图表理解、视障辅助、内容创作、教育解题等多方向表现出色，并已在多个领域实现商业应用。元象是国内领先的AI与3D技术服务公司，致力于推动前沿技术自主研发和国产开源大模型的发展。

XVERSE-V 多模态大模型 2024-08-28

开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

文章介绍了OpenAI发布会外的实时对话语音技术，特别是LiveKit作为GPT-4o背后的技术支持，提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用，并强调其作为开发者实现实时语音交互的便捷工具，展望未来应用前景广泛。

GPT-4o 语音交互 2024-08-27

Agent

2024年值得关注的Agent框架

2024年值得关注的几个Agent框架包括OpenAGI、TaskWeaver、MetaGPT、AutoGPT和SuperAGI，它们在智能规划、用户体验、记忆和大模型调用等方面各具特色，可用于任务管理、内容生成、代码编写等多种用途，展现了AI代理框架的多样性和潜力。

Agent 框架 2024-08-27

ChatGPT

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

ChatOllama是集成ollama与OpenAI的图形化管理工具，支持模型、指令、知识库管理及AI聊天。使用Vue3、Nuxt等技术开发，可下载代码学习。支持docker安装及本地安装，需配置OpenAI、Claude等API密钥。功能包括创建系统指令、知识库、使用ChatGPT和Claude3模型，以及模型管理。项目开源，可加入学习交流群探讨大模型技术。

ChatOllama 安装 2024-08-26

生成式AI与大语言模型的区别

文章概述了生成式人工智能（如DALL-E、Midjourney）与大型语言模型（LLMs，如GPT-3、PaLM 2）的区别与互补性。生成式AI专注于创造原创内容（图像、音乐、文本），而LLMs则擅长理解和生成类似人类的语言内容。两者结合能增强内容生成、个性化、聊天机器人功能、多模态内容创作、叙事生成、翻译与本地化以及内容摘要等应用，为多个行业带来创新与发展前景。

生成式AI 大语言模型区别 2024-08-26

大模型

Github上Star数最多的大模型应用基础服务：Dify 深度解读

Dify 大模型知识库 2024-08-26

AGI

Yann LeCun杨立昆最新观点：AGI不存在

Yann LeCun在访谈中批评了大型语言模型（LLM）作为通往通用人工智能（AGI）途径的局限性，认为它们缺乏理解物理世界、推理和规划的能力。他倡导开源人工智能以增强人类善良并防止少数公司控制信息，同时提出联合嵌入预测架构（JEPA）作为替代方法，但承认其并非完整解决方案。LeCun强调人工智能系统需要更深入理解现实世界，并认为当前LLM存在重大局限性，包括无法扎根现实和缺乏分层规划能力。他还讨论了开源AI的重要性，认为这有助于防止权力集中，促进文化多样性和民主。

AGI 大语言模型观点 2024-08-23

Agent

AI Agent新对决：LangGraph与AutoGen的技术角力

文章总结了AutoGen和LangGraph两个AI Agent框架的特点和优势。AutoGen作为微软开源的多代理框架，允许开发者定义代理交互行为，实现复杂任务协作，但主要面向特定任务且依赖用户输入。而LangGraph作为LangChain的扩展库，通过循环图精确定义LLM任务细节，支持复杂场景下的应用，提供了更精细的控制能力和开发体验，在增强RAG应用、代码生成等领域具有广泛应用前景，并有望引领未来互联网搜索的发展方向。

LangGraph AutoGen 对决 2024-08-23

语音

开发语音产品时设计唤醒词和命令词的技巧

文章总结了在设计中文、英文和日文语音产品的唤醒词与命令词时，应遵循的原则和最佳实践。包括控制字词长度、提升音节区分度、选择发音清晰且不易误唤醒的词汇、符合用户语言习惯等，以提高语音识别效果并减少误唤醒。不同语言在细节上有所差异，但总体策略相似。

语音产品唤醒词命令词 2024-08-23

微软

微软Phi-3、Mixtral 8x22B等小模型过拟合，三分之二存在数据污染

研究揭示，三分之二的大型语言模型（LLM）存在过拟合问题，主要由于基准测试数据污染。Scale AI通过人工注释创建了GSM1k数据集，测试多个热门LLM，发现许多模型在GSM1k上的表现显著下降，特别是Phi和Mistral系列，显示出系统性过拟合。但前沿模型如Gemini、GPT、Claude和Llama2系列过拟合迹象较少。GSM1k数据集未公开，以防数据污染问题，并计划定期评估主要LLM。研究还指出，过拟合模型仍具推理能力，且数据污染可能不是过拟合的唯一原因。

过拟合小模型 2024-08-22