文章列表-AI魔法学院

比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

Groq模型以惊人速度每秒输出近500个token，远超ChatGPT-3.5，其背后自研的LPU（语言处理单元）是关键，比GPU性能快10倍，且成本更低。Groq模型免费用，支持多种AI开发框架，但不支持训练。LPU设计独特，采用SRAM而非HBM，提升了速度和能效，适合大规模AI推理。Groq已在基准测试中表现出色，或可取代GPU在AI推理中的应用。公司CEO表示其目标是帮助更多人发展AI。

Groq 大模型 2024-09-18

Sora

深度｜万字访谈！Open AI Sora作者，亲自揭秘Sora原理，Sora能带我们通往AGI吗？

本文精心编译自 OpenAI Sora 的主要作者Tim Brooks 和 Bill Peebles 在AGI House 主题演讲。Tim 和 Bill 轮番分享了Sora的训练细节、数据工程及未来设想，是技术报告之外最一手的信息。ZP 团队摘要了其中亮点信息，同时也推荐你阅读原文，Enjoy !

Sora 原理 2024-09-14

数字人

腾讯出品！开源AI数字人框架！号称可以不限时长

MuseV是腾讯音乐娱乐天琴实验室开源的虚拟人视频生成框架，支持高质量视频、口型同步及无限长度视频生成，兼容多种生成方式和稳定扩散生态系统，提供多样化创作自由度，并发布了实时口型同步模型MuseTalk。MuseV将在娱乐、教育等领域发挥重要作用，引领虚拟人技术未来方向。项目地址在GitHub上。

MuseV 视频数字人框架 2024-09-14

大模型

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

苹果罕见开源大模型OpenELM权重、训练和评估框架，并升级CVNets为CoreNet，支持更广泛AI任务。OpenELM采用创新架构，参数非均匀分配提升精度，但处理速度较慢。CoreNet拓展至多种AI任务，加速CLIP等模型运行。网友推测发布或与苹果发布会相关。

OpenELM 大模型 2024-09-13

Transformer

万字长文震撼来袭！揭秘Transformer——吐血解读自注意力机制的革命性突破

目前主流的序列转换模型都基于复杂的循环神经网络（RNN）或卷积神经网络（CNN），包含编码器和解码器两部分。表现最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构——Transformer，它完全基于注意力机制，摒弃了循环和卷积操作。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更易于并行化，且训练时间大大减少。我们的模型在WMT 2014英语到德语的翻译任务上达到了28.4的BLEU分数，比现有最佳结果（包括集成模型）高出2 BLEU以上。在WMT 2014英语到法语的翻译任务上，我们的模型在8个GPU上训练了3.5天后，创下了单模型新的最佳BLEU分数记录，达到了41.0分，这仅为文献中最佳模型训练成本的一小部分。敲黑板，划重点引出了新的Transformer模型架构，该模型完全基于注意力机制，摒弃了循环和卷积操作。

Transformer 大模型 2024-09-13

OCR

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

面壁智能，一家清华背景的创业公司，通过优化大语言模型，发布了一系列轻量级、高性能的MiniCPM模型，包括多模态MiniCPM-V 2.0、适配端侧场景的MiniCPM-1.2B、长文本模型MiniCPM-2B-128K及MoE架构模型MiniCPM-MoE-8x2B。这些模型在同等成本下实现了卓越效果，并在OCR、长文本理解等任务中表现突出。面壁智能通过独特技术和高效训练模式，挑战了传统大模型“大即好”的观念，认为提升每个参数的效率是核心。公司已获新轮融资，将进一步推动大模型的高效训练和应用落地，为AGI通用基座大模型奠定更坚实基础。

MiniCPM 大模型 2024-09-12

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内AI厂商面壁智能推出MiniCPM 3.0，一款仅4B参数的轻量级模型，实现了GPT-3.5级别能力，在移动端展现强大推理、检索与代码解释功能。从1.0到3.0，模型在结构、性能及功能上显著提升，支持长文本处理、系统提示词及工具调用，打破性能与参数界限。MiniCPM 3.0在多项评测中表现优异，特别是在工具调用能力上接近GPT-4o，成为端侧最强模型之一，并发布RAG三件套提升检索能力。该模型现可下载使用。

MiniCPM3-4B 大模型 2024-09-12

Meta

深度 | Meta AI助手大测评，市值蒸发万亿都因它？

Meta发布新聊天机器人Meta AI，集成于多个应用，但测试显示其回答多依赖网络搜索，缺乏深度和原创性，尽管免费且在一些基本问题上提供合理回应。Meta AI被定位为休闲问题的第一层解决方案，但未能显著超越直接搜索功能，其表现引发对其实用性和价值的讨论。

Meta AI 测评 2024-09-11

Agent

用了一个月，终于找到点写 AI Agent 的思路

本文总结了作者在团队中落地AI Agent应用的过程和经验，强调找到可迭代的技术路线的重要性。文章提出了一种服务化AI Agent的设计思路，将AI端负责分析与Agent端负责执行分离，通过API交互。介绍了开发服务化AI Agent的迭代步骤，从预设场景到自主唤醒和AI自主编写Pipeline。同时，提供了解决AI Agent开发中对齐问题的几种方法，包括准确描述、Retry机制、Reflection\Reward机制和数据预选。整体而言，文章展示了在运维领域利用AI Agent实现自动化运维操作的探索和实践。

AI Agent Ops 运维工具 2024-09-10

Python

Python程序混淆和打包exe文件流程和方法

本文介绍了如何对Python代码进行加密和打包成exe文件以保护代码不被轻易使用或篡改。具体步骤包括使用PyObfuscate或在线服务混淆代码，以及使用PyInstaller将Python代码打包成可独立运行的exe文件。此外，还提到了使用Cython将Python代码编译为PYD文件以实现更高级的加密效果，尽管这主要目的是性能优化而非绝对安全加密。

Python 程序 2024-09-10

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

本文介绍了AI领域快速发展的背景下，Llama3模型及其垂直领域微调的表现，并详细阐述了MoE（专家混合模型）的概念、创建过程以及具体实例操作。文章首先概述了Llama3模型的强大能力及其纯本地部署的方法，然后深入讲解了MoE模型的基本原理，包括稀疏MoE层和Gate Network的作用，以及MoE模型在提高效率和性能方面的优势。接着，文章介绍了frankenMoE这一新型MoE实现方式，并对比了其与真正MoE的区别。最后，文章通过实例展示了如何将Llama3和Phi-3等模型组合成MoE模型，并提供了详细的操作步骤和配置文件说明。整体内容涵盖了MoE模型的理论基础、创建方法及实际应用，旨在帮助读者深入理解和动手实践MoE模型。

MoE 专家混合模型 2024-09-09

大模型

造梦师手记：足控专属AI大模型，完美的少女

文章介绍了AI绘画领域的新趋势，特别是pony大模型的崛起，它因技术先进、细节完美、支持涩涩内容等优势成为创作者的首选。同时推荐了一个基于pony的AI绘画模型T-ponynai3，该模型支持多种lora，能画出近乎完美的脚，提供了多个示例提示词和效果展示，并分享了模型下载链接。

pony 大模型文生图 2024-09-09

LLM

实操：基于 Ollama+AnythingLLM 的 AI 超级阅读法

本文介绍了作者利用AI大模型（如Kimi Chat和AnythingLLM）提升文档阅读效率的方法——“AI超级阅读法”。该方法包括文档预处理（提取元数据、总结内容、列举大纲）、深度解析（详细总结、提炼关键信息、提出疑问）和个性化进阶阅读（追问、解释专有名词、简化复杂概念）。尽管AI在阅读中存在局限性，但其潜力巨大，随着技术进步，将带来更高效、智能的文档处理时代。

Ollama AnythingLLM 阅读 2024-09-06

揭秘DeepSeek:一个更极致的中国技术理想主义故事

DeepSeek，一家低调的中国大模型创业公司，以高性价比的开源模型DeepSeek V2引发中国大模型价格战，被誉为“AI界拼多多”。其创新的MLA架构和DeepSeekMoESparse结构大幅降低推理成本，获得硅谷专家赞誉。创始人梁文锋强调技术创新的重要性，拒绝快速商业化，专注研究和技术开源，挑战“中国擅长应用创新而非技术创新”的成见。DeepSeek的独特之处在于其坚持技术驱动的理念，相信原创式创新将推动中国AI走向全球前沿。

DeepSeek 大模型 2024-09-06